(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111654301.2
(22)申请日 2021.12.3 0
(71)申请人 杭州电子科技大 学
地址 310018 浙江省杭州市下沙高教园区2
号大街
(72)发明人 胡馨之 潘勉 吕帅帅 金建国
唐金龙
(74)专利代理 机构 杭州君度专利代理事务所
(特殊普通 合伙) 33240
代理人 朱月芬
(51)Int.Cl.
G06V 20/10(2022.01)
G06V 10/764(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于特征融合和注意力机制的机载图像车
辆目标识别方法
(57)摘要
本发明公开了一种基于特征融合和注意力
机制的机载图像车辆目标识别方法。 本发明使用
自顶向下和自底向上的双重金字塔结构, 并加入
多个横向连接, 将输出的第一级特征与第二、 三
级特征相融合, 增强了网络的表征能力, 得到具
有更加丰富的语义信息的特征图。 能够改善目标
检测漏检、 误检的问题。 本发明针对机载图像中
背景较复杂这一问题, 使用注意力模块, 突出目
标区域的特征, 使网络重点学习有需要的区域。
在注意力模块中使用空间注意力和通道注意力
模块并联的方式, 既获得了空间的重点信息又获
得了通道的重点信息, 并与原始特征图相加, 得
到更精确的特征图。 能够在不增加过多时间的前
提下, 使后续的检测更加准确。
权利要求书3页 说明书7页 附图1页
CN 114332620 A
2022.04.12
CN 114332620 A
1.一种基于特征融合和注意力机制的机载图像车辆目标识别方法, 其特征在于, 包括
以下步骤:
S1:构建机载图像车辆目标识别模型;
机载图像车辆目标识别模型包括特征提取模块、 特征融合模块、 注意力机制模块和检
测模块; 特征提取模块用于对输入的原始图片进行特征提取; 特征融合模块将提取后的特
征进行融合, 获得更加丰富的语义信息; 注意力机制将融合后特征中的重点信息突出显示;
检测模块用于获得目标的类别与位置;
S2: 通过特征提取模块, 使用卷积神经网络对原始图片进行特征提取, 输出具有多尺度
的特征图;
S3: 通过特征融合模块对顶层的特征图进行上采样, 并与低层特征进行横向连接, 构建
一个自顶向下 的金字塔结构, 输出初步融合后的多尺度特征; 然后对于初步融合后的多尺
度特征进行处理, 对底层特征进行下采样, 并与高层特征图和S2中输出的高层特征图分别
进行横向连接, 构成一个自底向上的金字塔结构, 输出最终融合后的多尺度特 征;
S4: 通过注意力模块, 对最终融合后的多尺度特征, 沿着空间和通道两个维度进行操
作; 在空间和通道两个子模块中, 分别计算特征图的缩放因子和权重, 并与 原特征图相乘 来
对特征进行自适应调整, 使网络学习关注特征图的重点信息; 最后将空间和 通道两个子模
块的输出与输入特 征图相加, 得到最终的结果;
S5: 生成多个不同比例、 大小 的候选框, 得到每个输出特征图位置的候选框列表, 计算
得到每个特征图上对应于原图的候选框, 利用真实值信息计算每个候选框的正负样本属
性;
S6: 检测模块根据需要选用一阶段检测器, 其包括分类、 回归两个子网络, 将特征图分
别送入分类、 回归两个子网络, 分别用于判断目标的类别及目标的具体位置, 得到每个预测
框及其类别的置信度, 并使用回归网络修正位置; 最后使用非极大值抑制去除冗余的预测
框, 保留结果 最好的一个, 得到最终的检测结果。
2.根据权利要求1所述的一种基于特征融合和注意力 机制的机载图像车辆目标识别方
法, 其特征在于, 所述S2详细步骤为:
使用Resnet50作为特征提取模块的主干, 提取原始图片的特征; Resnet50共有五个阶
段, 每个阶段都会输出一个特征图, 同时也是下一阶段的输入; 不同阶段输出的特征图尺度
不同, 越上层的特 征图, 尺度越小, 通道数越多;
首先将输入的原 始图片进行处 理, 具体过程如下:
Out=Conv7×7(C,W,H,k,s)#(1)
其中Out代表第一阶段输出的特征图, Conv7×7代表大小为7 ×7的卷积层, C表示输入的
图片的通道数, RGB图像的通道数为3, W,H分别代表输入图片 的宽和高, k表示卷积核的大
小, s代表卷积核移动的步长; 其中k =64, s=2;
其次对输出的特 征图依次进行 特征提取, 具体过程如下:
Pi=Conv3×3(Ci,W,H,ki,si)#(2)
其中, Pi为第i阶段输出的特征图, Conv3×3表示大小为3 ×3的卷积层, Ci表示第i阶段输
入的特征图的通道数, W,H分别代表输入特征图的宽和高; ki表示卷积核 的大小, 其中ki=
256×2i‑1; si代表卷积核移动的步长, si=2; 最后输出四个特征图, 自下而上分别为{P2,P3,权 利 要 求 书 1/3 页
2
CN 114332620 A
2P4,P5}, 通道数分别为{25 6,512,1024,2048}。
3.根据权利要求2所述的一种基于特征融合和注意力 机制的机载图像车辆目标识别方
法, 其特征在于, 所述S3 详细步骤为:
S3.1: 将特征图{P2,P3,P4,P5}进行自顶向下的增强; 首先将S2中得到的特征图的通道归
一化, 并将最上层特征图P5平移得到N5; 将平移后的特征图进行像素混洗, 将原特征图放大
两倍; 然后将放大后的特征图的通道归一化, 以便与S2中的低层特征图横向连接, 得到新的
特征图N4; N4重复进行放大与横向连接操作, 直与S2中低层特征图全部完成横向连接; 具体
表现为:
其中Ni为特征融合后的第i层特征图, Conv1×1为大小是1 ×1的卷积, PS( ·)表示像素混
洗函数对特征进行上采样, L( ·)代表通道归一化操作, Ni+1为上一层特征图, kn为卷积核的
数量, sn为卷积核移动的步长, 其中kn=256, sn=1; Pi为Resnet50特征提取后得到的相较于
Ni+1低一层的特 征图; 最终输出初步融合后的特 征图{N2,N3,N4,N5}
S3.2: 将特征图{N2,N3,N4,N5}进行自底向上的增强; 首先将最底层的特征图平移; 此后,
每一层特征图都进行卷积操作, 使特征图缩小 两倍, 然后与相对应的Ni特征图和Pi特征图进
行横向连接, 对连接后的特征图进行卷积操作, 最终生成新的高分辨率的特征图; 具体表现
为:
其中Fi为输出的高分辨率的第i层特征图, Conv3×3为大小是3 ×3的卷积, kf为卷积核的
数量, 其中kf=2, 2表示卷积核移动的步长为2, Ni为S3.1中第i层特征图, Pi为S2中第i阶段
输出的特 征图, 1表示卷积核移动的步长; 最终输出的特 征图为{F2,F3,F4,F5}。
4.根据权利要求3所述的一种基于特征融合和注意力 机制的机载图像车辆目标识别方
法, 其特征在于, 所述S4的详细步骤为:
S4.1: 将最终融合后的特征图通过注意力模块, 抑制通道和空间中不显著的特征, 增强
获取显著特征 的能力; 注意力模块由空间注意力和通道注意力两个子模块并联构成; 输入
的特征图平行地通过 空间注意力和通道注意力模块, 最后 将两个注意力模块的输出特征及
输入特征图的特 征汇总, 得到更好的像素级的预测特 征表示; 具体表现为:
Outa=SUM(SA(Fi),CA(Fi),Fi)#(5)
其中Outa指的是最终输 出的特征图, S UM(·)指的是元素求和函数, 用于完成特征融合,
SA(·)为空间注意力模块, CA( ·)为通道注意力模块, Fi为输入的特 征图;
S4.2: 将特征图输入空间注意力模块, 提 高其表示能力; 首先将特征图中的每个像素使
用批归一化, 得到其缩放因子, 并通过缩放因子计算权重, 通过激活函数, 然后与输入的特
征图相加, 得到最终输出; 具体表现为:
Outs=sigmoid(Wα(BNs(Fi)))#(6)
其中Outs代表空间注意力模块的输出, sigmoid( ·)代表sigmoid激活函数, Wα代表通道
注意力模块的权 重信息, BNs代表通道注意力模块的缩放因子, Fi表示输入的特 征图;权 利 要 求 书 2/3 页
3
CN 114332620 A
3
专利 基于特征融合和注意力机制的机载图像车辆目标识别方法
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 21:50:29上传分享