从Self-Attention到DANet：手把手教你用Keras实现CVPR2019的全局注意力模块-创锋一号

从Self-Attention到DANet：手把手教你用Keras实现CVPR2019的全局注意力模块

在计算机视觉领域，注意力机制正逐渐成为提升模型性能的关键技术。2019年CVPR会议上提出的DANet（Dual Attention Network）通过同时捕捉空间和通道维度的注意力，显著提升了语义分割任务的精度。本文将带您从最基础的Self-Attention概念出发，逐步构建完整的双重注意力模块，并在Keras框架中实现这一前沿技术。

1. 注意力机制的基础演进

注意力机制的核心思想是让模型能够"有选择地关注"输入数据中最相关的部分。这一概念最早在自然语言处理领域大放异彩，随后被成功引入计算机视觉任务。

1.1 Self-Attention的本质

Self-Attention通过计算输入元素之间的相关性来分配注意力权重。给定输入特征X∈ℝ^(N×C)，其中N是空间位置数，C是通道数，Self-Attention的计算过程可分解为：

通过线性变换生成Query(Q)、Key(K)和Value(V)三个矩阵：

Q = Dense(C)(X) # Query K = Dense(C)(X) # Key V = Dense(C)(X) # Value

计算注意力分数并归一化：

attention_scores = tf.matmul(Q, K, transpose_b=True) attention_scores = tf.nn.softmax(attention_scores / sqrt(C))

加权求和得到输出：
```
output = tf.matmul(attention_scores, V)
```

这种机制允许模型捕捉长距离依赖关系，不受局部感受野的限制。

1.2 从NLP到CV的注意力迁移

将Self-Attention应用于视觉任务需要考虑两个关键差异：

空间维度处理：图像数据具有二维结构，需要保留空间位置信息
计算复杂度：高分辨率图像会导致注意力矩阵过大，需要优化策略

下表对比了NLP和CV中注意力机制的主要差异：

特性	NLP注意力	CV注意力
输入结构	一维序列	二维特征图
位置编码	必需	可选(CNN已隐含)
计算复杂度	O(L²)	O(H²W²)
典型应用	机器翻译	目标检测/分割

2. DANet的双重注意力架构

DANet创新性地提出了位置注意力模块(PAM)和通道注意力模块(CAM)的并行结构，全面捕捉特征间的空间和通道相关性。

2.1 位置注意力模块(PAM)实现

PAM专注于空间维度上的长距离依赖关系。以下是Keras实现的关键步骤：

def position_attention_module(input_feature, ratio=8): _, H, W, C = input_feature.shape # 生成Q,K,V query = Conv2D(C//ratio, 1)(input_feature) key = Conv2D(C//ratio, 1)(input_feature) value = Conv2D(C, 1)(input_feature) # 调整维度并计算注意力 query = Reshape((H*W, -1))(query) key = Reshape((H*W, -1))(key) energy = tf.matmul(query, key, transpose_b=True) attention = Softmax(axis=-1)(energy) # 应用注意力权重 value = Reshape((H*W, -1))(value) out = tf.matmul(attention, value) out = Reshape((H, W, C))(out) # 残差连接 out = Conv2D(C, 1)(out) return Add()([input_feature, out])

注意：实际实现时应添加适当的BatchNormalization和激活函数层

2.2 通道注意力模块(CAM)设计

CAM关注通道间的相互依赖关系，其Keras实现如下：

def channel_attention_module(input_feature): _, H, W, C = input_feature.shape # 通道间注意力计算 query = Reshape((H*W, C))(input_feature) key = Reshape((H*W, C))(input_feature) energy = tf.matmul(query, key, transpose_a=True) attention = Softmax(axis=-1)(energy) # 特征重组 value = Reshape((H*W, C))(input_feature) out = tf.matmul(value, attention, transpose_b=True) out = Reshape((H, W, C))(out) # 残差连接 return Add()([input_feature, out])

2.3 双重注意力的融合策略

DANet将PAM和CAM的输出进行逐元素相加融合：

def dual_attention_module(input_feature): pam_out = position_attention_module(input_feature) cam_out = channel_attention_module(input_feature) return Add()([pam_out, cam_out])

这种并行结构允许模型同时捕捉空间和通道维度的关键信息，实验表明其效果优于单一注意力机制。

3. 实现细节与性能优化

在实际应用中，DANet的实现需要考虑多个工程细节以确保效率和效果。

3.1 计算复杂度优化策略

原始注意力计算的空间复杂度为O((HW)²)，对于大尺寸特征图可能带来内存问题。可采用以下优化方法：

分块计算：将特征图划分为若干子区域分别计算注意力
降维策略：在计算注意力前先降低通道维度
稀疏注意力：只计算局部区域或采样点的注意力

优化后的PAM实现示例：

def efficient_pam(input_feature, patch_size=32): _, H, W, C = input_feature.shape # 分块处理 patches = tf.image.extract_patches( input_feature, sizes=[1, patch_size, patch_size, 1], strides=[1, patch_size, patch_size, 1], rates=[1, 1, 1, 1], padding='VALID' ) # 对每个块应用注意力 # ...后续处理...

3.2 与骨干网络的集成方案

DANet模块可以灵活插入各种骨干网络。以下是集成到ResNet的典型方式：

中间层插入：在ResNet的中间阶段添加注意力模块

def resnet_with_da(): base_model = ResNet50(include_top=False) x = base_model.get_layer('conv4_block6_out').output x = dual_attention_module(x) # ...后续层...

多尺度融合：在不同层级分别应用注意力后融合

def multi_scale_da(): low_level = base_model.get_layer('conv2_block3_out').output mid_level = base_model.get_layer('conv3_block4_out').output high_level = base_model.get_layer('conv4_block6_out').output da_low = dual_attention_module(low_level) da_mid = dual_attention_module(mid_level) da_high = dual_attention_module(high_level) # 上采样并融合各层特征 # ...后续处理...

3.3 训练技巧与超参数设置

学习率策略：注意力模块通常需要更小的学习率
```
optimizer = Adam(lr=1e-4)
```
初始化方法：注意力层的权重初始化至关重要
```
Conv2D(64, 1, kernel_initializer='he_normal')
```
正则化配置：适当增加Dropout防止过拟合
```
x = Dropout(0.1)(attention_output)
```

4. 实际应用与效果评估

DANet在多个视觉任务中展现了优越性能，特别是在需要精细预测的任务上。

4.1 语义分割任务表现

在城市景观数据集上的典型指标对比：

模型	mIoU(%)	参数量(M)	FPS
FCN	69.1	134.5	15.2
DeepLabv3+	75.3	59.3	10.7
DANet	77.5	71.2	8.3

虽然计算开销有所增加，但精度提升显著。

4.2 目标检测中的迁移应用

将DANet集成到Faster R-CNN中的改进方案：

在RPN网络后添加PAM模块增强区域提议质量
在ROI Pooling前应用CAM模块强化特征表达能力
实验表明可提升小目标检测AP约2-3个百分点

4.3 自定义任务的调整建议

针对不同应用场景，可调整DANet的以下方面：

注意力组合方式：尝试串联或加权融合而非简单相加
特征尺度选择：在不同分辨率特征图上应用注意力
计算精简：根据任务需求减少注意力头数或通道比例

以下是一个可配置的DANet变体实现：

class ConfigurableDAN(Layer): def __init__(self, channel_ratio=8, pam_first=True, **kwargs): super().__init__(**kwargs) self.channel_ratio = channel_ratio self.pam_first = pam_first def build(self, input_shape): if self.pam_first: self.pam = PositionAttentionModule(channel_ratio=self.channel_ratio) self.cam = ChannelAttentionModule() else: self.cam = ChannelAttentionModule() self.pam = PositionAttentionModule(channel_ratio=self.channel_ratio) def call(self, inputs): if self.pam_first: x = self.pam(inputs) x = self.cam(x) else: x = self.cam(inputs) x = self.pam(x) return x

在医疗图像分割任务中，我们发现先应用通道注意力再处理空间注意力的顺序效果更佳，这可能是因为医学图像中通道间的对比度信息尤为重要。

企业官网建设流程全解析