团体标准网
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111654890.4 (22)申请日 2021.12.3 0 (71)申请人 中国人民解 放军军事科学院国防科 技创新研究院 地址 100071 北京市丰台区东大街5 3号院 (72)发明人 刘峰 李岱徽 陈亮 沈同圣  赵德鑫 丁昊  (74)专利代理 机构 北京路浩知识产权代理有限 公司 11002 代理人 王庆龙 (51)Int.Cl. G10L 25/03(2013.01) G10L 25/18(2013.01) G10L 25/30(2013.01) G10L 25/51(2013.01)G06N 3/08(2006.01) G06N 3/04(2006.01) (54)发明名称 基于位置编码卷积神经网络的声音定位识 别方法及装置 (57)摘要 本发明提供一种基于位置编码卷积神经网 络的声音定位识别方法及装置, 该方法包括: 将 目标声源信号输入多任务模型中的编码模型, 得 到目标声源信号的编码结果; 将目标声源信号和 编码结果输入多任务模型中的特征提取模型, 得 到目标声源信号的特征向量; 将目标声源信号的 特征向量输入多任务模型中的解码模 型, 得到目 标声源信号的解码结果; 将目标声源信号的解码 结果输入多任务模型中的定位识别模 型, 得到目 标声源信号的定位结果和识别结果。 本发明实现 消除特征向量中的时间位置信息干扰, 从目标声 源信号中深度挖掘影响定位任务和识别任务的 本质特征, 并充分考虑定位任务和识别任务之间 的相关性和差异性, 有效提高目标声源信号的定 位精度和识别精度。 权利要求书2页 说明书15页 附图4页 CN 114420150 A 2022.04.29 CN 114420150 A 1.一种基于位置编码卷积神经网络的声 音定位识别方法, 其特 征在于, 包括: 将目标声源信号输入多任务模型中的编码模型, 得到所述目标声源信号的编码结果; 其中, 所述编码模型用于对所述目标声源信号进行位置信息编码; 将所述目标声源信号和所述编码结果输入所述多任务模型中的特征提取模型, 得到所 述目标声源信号的特 征向量; 将所述目标声源信号的特征向量输入所述多任务模型中的解码模型, 得到所述目标声 源信号的解码结果; 将所述目标声源信号的解码结果输入所述多任务模型中的定位识别模型, 得到所述目 标声源信号的定位结果和识别结果; 其中, 所述多任务模型基于样本声源信号和所述样本声源信号对应的参考定位结果和 参考识别结果训练得到 。 2.根据权利要求1所述的基于位置编码卷积神经网络的声音定位识别方法, 其特征在 于, 所述特征提取模型包括第一子特征提取模型和第二子特征提取模型, 所述特征向量包 括第一子特 征向量和第二子特 征向量; 相应地, 所述将所述目标声源信号和所述编码结果输入所述多任务模型中的特征提取 模型, 得到所述目标声源信号的特 征向量, 包括: 将所述目标声源信号和所述编码结果输入所述第 一子特征提取模型, 得到所述目标声 源信号的第一子特征向量, 将所述目标声源信号和所述编 码结果输入所述第二子特征提取 模型, 得到所述目标声源信号的第二子特 征向量; 其中, 所述第一子特征提取模型用于提取与所述目标声源信号的定位结果相关的特 征, 所述第二子特 征提取模型用于提取与所述目标声源信号的识别结果相关的特 征。 3.根据权利要求1所述的基于位置编码卷积神经网络的声音定位识别方法, 其特征在 于, 所述特 征提取模型包 含至少一组位置信息保持模块和池化模块; 所述位置信息保持模块包 含多个不同尺度的第一卷积模块, 以及第二卷积模块; 多个不同尺度的第 一卷积模块, 用于对所述目标声源信号和所述编码结果进行多尺度 特征提取, 得到所述目标声源信号的多个不同尺度的特 征向量; 第二卷积模块, 用于对多个不同尺度的特 征向量进行融合; 所述池化模块, 用于对融合结果进行池化操作。 4.根据权利要求1 ‑3任一所述的基于位置编码卷积神经网络的声音定位识别方法, 其 特征在于, 所述定位识别模型包括至少一组并行的第一Transformer模型和第二 Transformer模型; 每组所述第一Transformer模型用于对所述目标声源信号的每一声 音事件进行定位; 每组所述第二Transformer模型用于对所述目标声源信号的每一声 音事件进行识别。 5.根据权利要求1 ‑3任一所述的基于位置编码卷积神经网络的声音定位识别方法, 其 特征在于, 在所述将目标声源信号输入多任务模型中的编码模型, 得到所述 目标声源信号 的编码结果之前, 还 包括: 对所述样本声源信号进行初步数据增强后, 进行初步特征提取, 得到所述样本声源信 号的初步特 征向量; 和/或, 对所述样本声源信号的初步特 征向量中的部分特 征向量, 进行 再次数据增强;权 利 要 求 书 1/2 页 2 CN 114420150 A 2根据所述样本声源信号的初步特征向量和/或再次数据增强后的部分特征向量, 以及 所述样本声源信号对应的参 考定位结果和参 考识别结果对所述多任务模型进行训练。 6.根据权利要求5所述的基于位置编码卷积神经网络的声音定位识别方法, 其特征在 于, 所述初步特 征向量包括对数梅尔声谱特 征向量和强度特 征向量; 相应地, 对所述样本声源信号的初步特征向量中的部分特征向量, 进行再次数据增强, 包括: 对所述初步特 征向量中的对数梅尔声谱特 征向量, 进行梅尔声谱数据增强。 7.根据权利要求5所述的基于位置编码卷积神经网络的声音定位识别方法, 其特征在 于, 所述初步数据增强包括按照一种或多种方向对 所述样本声源信号进 行旋转, 和/或对不 同类别的样本声源信号进行随机 叠加数据增强。 8.一种基于位置编码卷积神经网络的声 音定位识别装置, 其特 征在于, 包括: 编码模块, 用于将目标声源信号输入多任务模型中的编码模型, 得到所述目标声源信 号的编码结果; 其中, 所述编码模型用于对所述目标声源信号进行位置信息编码; 特征提取模块, 用于将所述目标声源信号和所述编码结果输入所述多任务模型中的特 征提取模型, 得到所述目标声源信号的特 征向量; 解码模块, 用于将所述目标声源信号的特征向量输入所述多任务模型中的解码模型, 得到所述目标声源信号的解码结果; 定位识别模块, 用于将所述目标声源信号的解码结果输入所述多任务模型中的定位识 别模型, 得到所述目标声源信号的定位结果和识别结果; 其中, 所述多任务模型基于样本声源信号和所述样本声源信号对应的参考定位结果和 参考识别结果训练得到 。 9.一种电子设备, 包括存储器、 处理器及存储在所述存储器上并可在所述处理器上运 行的计算机程序, 其特征在于, 所述处理器执行所述程序时实现如权利要求1至7任一项所 述基于位置编码卷积神经网络的声 音定位识别方法的步骤。 10.一种非暂态计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算 机程序被处理器执行时实现如权利要求1至7任一项所述基于位置编码卷积神经网络的声 音定位识别方法的步骤。权 利 要 求 书 2/2 页 3 CN 114420150 A 3

.PDF文档 专利 基于位置编码卷积神经网络的声音定位识别方法及装置

文档预览
中文文档 22 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于位置编码卷积神经网络的声音定位识别方法及装置 第 1 页 专利 基于位置编码卷积神经网络的声音定位识别方法及装置 第 2 页 专利 基于位置编码卷积神经网络的声音定位识别方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 21:49:57上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。