团体标准网
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111654301.2 (22)申请日 2021.12.3 0 (71)申请人 杭州电子科技大 学 地址 310018 浙江省杭州市下沙高教园区2 号大街 (72)发明人 胡馨之 潘勉 吕帅帅 金建国  唐金龙  (74)专利代理 机构 杭州君度专利代理事务所 (特殊普通 合伙) 33240 代理人 朱月芬 (51)Int.Cl. G06V 20/10(2022.01) G06V 10/764(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01)G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于特征融合和注意力机制的机载图像车 辆目标识别方法 (57)摘要 本发明公开了一种基于特征融合和注意力 机制的机载图像车辆目标识别方法。 本发明使用 自顶向下和自底向上的双重金字塔结构, 并加入 多个横向连接, 将输出的第一级特征与第二、 三 级特征相融合, 增强了网络的表征能力, 得到具 有更加丰富的语义信息的特征图。 能够改善目标 检测漏检、 误检的问题。 本发明针对机载图像中 背景较复杂这一问题, 使用注意力模块, 突出目 标区域的特征, 使网络重点学习有需要的区域。 在注意力模块中使用空间注意力和通道注意力 模块并联的方式, 既获得了空间的重点信息又获 得了通道的重点信息, 并与原始特征图相加, 得 到更精确的特征图。 能够在不增加过多时间的前 提下, 使后续的检测更加准确。 权利要求书3页 说明书7页 附图1页 CN 114332620 A 2022.04.12 CN 114332620 A 1.一种基于特征融合和注意力机制的机载图像车辆目标识别方法, 其特征在于, 包括 以下步骤: S1:构建机载图像车辆目标识别模型; 机载图像车辆目标识别模型包括特征提取模块、 特征融合模块、 注意力机制模块和检 测模块; 特征提取模块用于对输入的原始图片进行特征提取; 特征融合模块将提取后的特 征进行融合, 获得更加丰富的语义信息; 注意力机制将融合后特征中的重点信息突出显示; 检测模块用于获得目标的类别与位置; S2: 通过特征提取模块, 使用卷积神经网络对原始图片进行特征提取, 输出具有多尺度 的特征图; S3: 通过特征融合模块对顶层的特征图进行上采样, 并与低层特征进行横向连接, 构建 一个自顶向下 的金字塔结构, 输出初步融合后的多尺度特征; 然后对于初步融合后的多尺 度特征进行处理, 对底层特征进行下采样, 并与高层特征图和S2中输出的高层特征图分别 进行横向连接, 构成一个自底向上的金字塔结构, 输出最终融合后的多尺度特 征; S4: 通过注意力模块, 对最终融合后的多尺度特征, 沿着空间和通道两个维度进行操 作; 在空间和通道两个子模块中, 分别计算特征图的缩放因子和权重, 并与 原特征图相乘 来 对特征进行自适应调整, 使网络学习关注特征图的重点信息; 最后将空间和 通道两个子模 块的输出与输入特 征图相加, 得到最终的结果; S5: 生成多个不同比例、 大小 的候选框, 得到每个输出特征图位置的候选框列表, 计算 得到每个特征图上对应于原图的候选框, 利用真实值信息计算每个候选框的正负样本属 性; S6: 检测模块根据需要选用一阶段检测器, 其包括分类、 回归两个子网络, 将特征图分 别送入分类、 回归两个子网络, 分别用于判断目标的类别及目标的具体位置, 得到每个预测 框及其类别的置信度, 并使用回归网络修正位置; 最后使用非极大值抑制去除冗余的预测 框, 保留结果 最好的一个, 得到最终的检测结果。 2.根据权利要求1所述的一种基于特征融合和注意力 机制的机载图像车辆目标识别方 法, 其特征在于, 所述S2详细步骤为: 使用Resnet50作为特征提取模块的主干, 提取原始图片的特征; Resnet50共有五个阶 段, 每个阶段都会输出一个特征图, 同时也是下一阶段的输入; 不同阶段输出的特征图尺度 不同, 越上层的特 征图, 尺度越小, 通道数越多; 首先将输入的原 始图片进行处 理, 具体过程如下: Out=Conv7×7(C,W,H,k,s)#(1) 其中Out代表第一阶段输出的特征图, Conv7×7代表大小为7 ×7的卷积层, C表示输入的 图片的通道数, RGB图像的通道数为3, W,H分别代表输入图片 的宽和高, k表示卷积核的大 小, s代表卷积核移动的步长; 其中k =64, s=2; 其次对输出的特 征图依次进行 特征提取, 具体过程如下: Pi=Conv3×3(Ci,W,H,ki,si)#(2) 其中, Pi为第i阶段输出的特征图, Conv3×3表示大小为3 ×3的卷积层, Ci表示第i阶段输 入的特征图的通道数, W,H分别代表输入特征图的宽和高; ki表示卷积核 的大小, 其中ki= 256×2i‑1; si代表卷积核移动的步长, si=2; 最后输出四个特征图, 自下而上分别为{P2,P3,权 利 要 求 书 1/3 页 2 CN 114332620 A 2P4,P5}, 通道数分别为{25 6,512,1024,2048}。 3.根据权利要求2所述的一种基于特征融合和注意力 机制的机载图像车辆目标识别方 法, 其特征在于, 所述S3 详细步骤为: S3.1: 将特征图{P2,P3,P4,P5}进行自顶向下的增强; 首先将S2中得到的特征图的通道归 一化, 并将最上层特征图P5平移得到N5; 将平移后的特征图进行像素混洗, 将原特征图放大 两倍; 然后将放大后的特征图的通道归一化, 以便与S2中的低层特征图横向连接, 得到新的 特征图N4; N4重复进行放大与横向连接操作, 直与S2中低层特征图全部完成横向连接; 具体 表现为: 其中Ni为特征融合后的第i层特征图, Conv1×1为大小是1 ×1的卷积, PS( ·)表示像素混 洗函数对特征进行上采样, L( ·)代表通道归一化操作, Ni+1为上一层特征图, kn为卷积核的 数量, sn为卷积核移动的步长, 其中kn=256, sn=1; Pi为Resnet50特征提取后得到的相较于 Ni+1低一层的特 征图; 最终输出初步融合后的特 征图{N2,N3,N4,N5} S3.2: 将特征图{N2,N3,N4,N5}进行自底向上的增强; 首先将最底层的特征图平移; 此后, 每一层特征图都进行卷积操作, 使特征图缩小 两倍, 然后与相对应的Ni特征图和Pi特征图进 行横向连接, 对连接后的特征图进行卷积操作, 最终生成新的高分辨率的特征图; 具体表现 为: 其中Fi为输出的高分辨率的第i层特征图, Conv3×3为大小是3 ×3的卷积, kf为卷积核的 数量, 其中kf=2, 2表示卷积核移动的步长为2, Ni为S3.1中第i层特征图, Pi为S2中第i阶段 输出的特 征图, 1表示卷积核移动的步长; 最终输出的特 征图为{F2,F3,F4,F5}。 4.根据权利要求3所述的一种基于特征融合和注意力 机制的机载图像车辆目标识别方 法, 其特征在于, 所述S4的详细步骤为: S4.1: 将最终融合后的特征图通过注意力模块, 抑制通道和空间中不显著的特征, 增强 获取显著特征 的能力; 注意力模块由空间注意力和通道注意力两个子模块并联构成; 输入 的特征图平行地通过 空间注意力和通道注意力模块, 最后 将两个注意力模块的输出特征及 输入特征图的特 征汇总, 得到更好的像素级的预测特 征表示; 具体表现为: Outa=SUM(SA(Fi),CA(Fi),Fi)#(5) 其中Outa指的是最终输 出的特征图, S UM(·)指的是元素求和函数, 用于完成特征融合, SA(·)为空间注意力模块, CA( ·)为通道注意力模块, Fi为输入的特 征图; S4.2: 将特征图输入空间注意力模块, 提 高其表示能力; 首先将特征图中的每个像素使 用批归一化, 得到其缩放因子, 并通过缩放因子计算权重, 通过激活函数, 然后与输入的特 征图相加, 得到最终输出; 具体表现为: Outs=sigmoid(Wα(BNs(Fi)))#(6) 其中Outs代表空间注意力模块的输出, sigmoid( ·)代表sigmoid激活函数, Wα代表通道 注意力模块的权 重信息, BNs代表通道注意力模块的缩放因子, Fi表示输入的特 征图;权 利 要 求 书 2/3 页 3 CN 114332620 A 3

.PDF文档 专利 基于特征融合和注意力机制的机载图像车辆目标识别方法

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于特征融合和注意力机制的机载图像车辆目标识别方法 第 1 页 专利 基于特征融合和注意力机制的机载图像车辆目标识别方法 第 2 页 专利 基于特征融合和注意力机制的机载图像车辆目标识别方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 21:50:29上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。