专利 基于特征融合和注意力机制的机载图像车辆目标识别方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111654301.2 (22)申请日 2021.12.3 0 (71)申请人杭州电子科技大学地址 310018 浙江省杭州市下沙高教园区2 号大街 (72)发明人胡馨之　潘勉　吕帅帅　金建国　唐金龙　 (74)专利代理机构杭州君度专利代理事务所 (特殊普通合伙) 33240 代理人朱月芬 (51)Int.Cl. G06V 20/10(2022.01) G06V 10/764(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01)G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于特征融合和注意力机制的机载图像车辆目标识别方法 (57)摘要本发明公开了一种基于特征融合和注意力机制的机载图像车辆目标识别方法。本发明使用自顶向下和自底向上的双重金字塔结构，并加入多个横向连接，将输出的第一级特征与第二、三级特征相融合，增强了网络的表征能力，得到具有更加丰富的语义信息的特征图。能够改善目标检测漏检、误检的问题。本发明针对机载图像中背景较复杂这一问题，使用注意力模块，突出目标区域的特征，使网络重点学习有需要的区域。在注意力模块中使用空间注意力和通道注意力模块并联的方式，既获得了空间的重点信息又获得了通道的重点信息，并与原始特征图相加，得到更精确的特征图。能够在不增加过多时间的前提下，使后续的检测更加准确。权利要求书3页说明书7页附图1页 CN 114332620 A 2022.04.12 CN 114332620 A 1.一种基于特征融合和注意力机制的机载图像车辆目标识别方法，其特征在于，包括以下步骤： S1:构建机载图像车辆目标识别模型；机载图像车辆目标识别模型包括特征提取模块、特征融合模块、注意力机制模块和检测模块；特征提取模块用于对输入的原始图片进行特征提取；特征融合模块将提取后的特征进行融合，获得更加丰富的语义信息；注意力机制将融合后特征中的重点信息突出显示；检测模块用于获得目标的类别与位置； S2：通过特征提取模块，使用卷积神经网络对原始图片进行特征提取，输出具有多尺度的特征图； S3：通过特征融合模块对顶层的特征图进行上采样，并与低层特征进行横向连接，构建一个自顶向下的金字塔结构，输出初步融合后的多尺度特征；然后对于初步融合后的多尺度特征进行处理，对底层特征进行下采样，并与高层特征图和S2中输出的高层特征图分别进行横向连接，构成一个自底向上的金字塔结构，输出最终融合后的多尺度特征； S4：通过注意力模块，对最终融合后的多尺度特征，沿着空间和通道两个维度进行操作；在空间和通道两个子模块中，分别计算特征图的缩放因子和权重，并与原特征图相乘来对特征进行自适应调整，使网络学习关注特征图的重点信息；最后将空间和通道两个子模块的输出与输入特征图相加，得到最终的结果； S5：生成多个不同比例、大小的候选框，得到每个输出特征图位置的候选框列表，计算得到每个特征图上对应于原图的候选框，利用真实值信息计算每个候选框的正负样本属性； S6：检测模块根据需要选用一阶段检测器，其包括分类、回归两个子网络，将特征图分别送入分类、回归两个子网络，分别用于判断目标的类别及目标的具体位置，得到每个预测框及其类别的置信度，并使用回归网络修正位置；最后使用非极大值抑制去除冗余的预测框，保留结果最好的一个，得到最终的检测结果。 2.根据权利要求1所述的一种基于特征融合和注意力机制的机载图像车辆目标识别方法，其特征在于，所述S2详细步骤为：使用Resnet50作为特征提取模块的主干，提取原始图片的特征； Resnet50共有五个阶段，每个阶段都会输出一个特征图，同时也是下一阶段的输入；不同阶段输出的特征图尺度不同，越上层的特征图，尺度越小，通道数越多；首先将输入的原始图片进行处理，具体过程如下： Out＝Conv7×7(C,W,H,k,s)#(1) 其中Out代表第一阶段输出的特征图， Conv7×7代表大小为7 ×7的卷积层， C表示输入的图片的通道数， RGB图像的通道数为3， W,H分别代表输入图片的宽和高， k表示卷积核的大小， s代表卷积核移动的步长；其中k ＝64， s＝2；其次对输出的特征图依次进行特征提取，具体过程如下： Pi＝Conv3×3(Ci,W,H,ki,si)#(2) 其中， Pi为第i阶段输出的特征图， Conv3×3表示大小为3 ×3的卷积层， Ci表示第i阶段输入的特征图的通道数， W,H分别代表输入特征图的宽和高； ki表示卷积核的大小，其中ki＝ 256×2i‑1； si代表卷积核移动的步长， si＝2；最后输出四个特征图，自下而上分别为{P2,P3,权　利　要　求　书 1/3 页 2 CN 114332620 A 2P4,P5}，通道数分别为{25 6,512,1024,2048}。 3.根据权利要求2所述的一种基于特征融合和注意力机制的机载图像车辆目标识别方法，其特征在于，所述S3 详细步骤为： S3.1：将特征图{P2,P3,P4,P5}进行自顶向下的增强；首先将S2中得到的特征图的通道归一化，并将最上层特征图P5平移得到N5；将平移后的特征图进行像素混洗，将原特征图放大两倍；然后将放大后的特征图的通道归一化，以便与S2中的低层特征图横向连接，得到新的特征图N4； N4重复进行放大与横向连接操作，直与S2中低层特征图全部完成横向连接；具体表现为：其中Ni为特征融合后的第i层特征图， Conv1×1为大小是1 ×1的卷积， PS( ·)表示像素混洗函数对特征进行上采样， L( ·)代表通道归一化操作， Ni+1为上一层特征图， kn为卷积核的数量， sn为卷积核移动的步长，其中kn＝256， sn＝1； Pi为Resnet50特征提取后得到的相较于 Ni+1低一层的特征图；最终输出初步融合后的特征图{N2,N3,N4,N5} S3.2：将特征图{N2,N3,N4,N5}进行自底向上的增强；首先将最底层的特征图平移；此后，每一层特征图都进行卷积操作，使特征图缩小两倍，然后与相对应的Ni特征图和Pi特征图进行横向连接，对连接后的特征图进行卷积操作，最终生成新的高分辨率的特征图；具体表现为：其中Fi为输出的高分辨率的第i层特征图， Conv3×3为大小是3 ×3的卷积， kf为卷积核的数量，其中kf＝2， 2表示卷积核移动的步长为2， Ni为S3.1中第i层特征图， Pi为S2中第i阶段输出的特征图， 1表示卷积核移动的步长；最终输出的特征图为{F2,F3,F4,F5}。 4.根据权利要求3所述的一种基于特征融合和注意力机制的机载图像车辆目标识别方法，其特征在于，所述S4的详细步骤为： S4.1：将最终融合后的特征图通过注意力模块，抑制通道和空间中不显著的特征，增强获取显著特征的能力；注意力模块由空间注意力和通道注意力两个子模块并联构成；输入的特征图平行地通过空间注意力和通道注意力模块，最后将两个注意力模块的输出特征及输入特征图的特征汇总，得到更好的像素级的预测特征表示；具体表现为： Outa＝SUM(SA(Fi),CA(Fi),Fi)#(5) 其中Outa指的是最终输出的特征图， S UM(·)指的是元素求和函数，用于完成特征融合， SA(·)为空间注意力模块， CA( ·)为通道注意力模块， Fi为输入的特征图； S4.2：将特征图输入空间注意力模块，提高其表示能力；首先将特征图中的每个像素使用批归一化，得到其缩放因子，并通过缩放因子计算权重，通过激活函数，然后与输入的特征图相加，得到最终输出；具体表现为： Outs＝sigmoid(Wα(BNs(Fi)))#(6) 其中Outs代表空间注意力模块的输出， sigmoid( ·)代表sigmoid激活函数， Wα代表通道注意力模块的权重信息， BNs代表通道注意力模块的缩放因子， Fi表示输入的特征图；权　利　要　求　书 2/3 页 3 CN 114332620 A 3

专利 基于特征融合和注意力机制的机载图像车辆目标识别方法

专利基于特征融合和注意力机制的机载图像车辆目标识别方法