团体标准网
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111654890.4 (22)申请日 2021.12.3 0 (71)申请人 中国人民解 放军军事科学院国防科 技创新研究院 地址 100071 北京市丰台区东大街5 3号院 (72)发明人 刘峰 李岱徽 陈亮 沈同圣 赵德鑫 丁昊 (74)专利代理 机构 北京路浩知识产权代理有限 公司 11002 代理人 王庆龙 (51)Int.Cl. G10L 25/03(2013.01) G10L 25/18(2013.01) G10L 25/30(2013.01) G10L 25/51(2013.01)G06N 3/08(2006.01) G06N 3/04(2006.01) (54)发明名称 基于位置编码卷积神经网络的声音定位识 别方法及装置 (57)摘要 本发明提供一种基于位置编码卷积神经网 络的声音定位识别方法及装置, 该方法包括: 将 目标声源信号输入多任务模型中的编码模型, 得 到目标声源信号的编码结果; 将目标声源信号和 编码结果输入多任务模型中的特征提取模型, 得 到目标声源信号的特征向量; 将目标声源信号的 特征向量输入多任务模型中的解码模 型, 得到目 标声源信号的解码结果; 将目标声源信号的解码 结果输入多任务模型中的定位识别模 型, 得到目 标声源信号的定位结果和识别结果。 本发明实现 消除特征向量中的时间位置信息干扰, 从目标声 源信号中深度挖掘影响定位任务和识别任务的 本质特征, 并充分考虑定位任务和识别任务之间 的相关性和差异性, 有效提高目标声源信号的定 位精度和识别精度。 权利要求书2页 说明书15页 附图4页 CN 114420150 A 2022.04.29 CN 114420150 A 1.一种基于位置编码卷积神经网络的声 音定位识别方法, 其特 征在于, 包括: 将目标声源信号输入多任务模型中的编码模型, 得到所述目标声源信号的编码结果; 其中, 所述编码模型用于对所述目标声源信号进行位置信息编码; 将所述目标声源信号和所述编码结果输入所述多任务模型中的特征提取模型, 得到所 述目标声源信号的特 征向量; 将所述目标声源信号的特征向量输入所述多任务模型中的解码模型, 得到所述目标声 源信号的解码结果; 将所述目标声源信号的解码结果输入所述多任务模型中的定位识别模型, 得到所述目 标声源信号的定位结果和识别结果; 其中, 所述多任务模型基于样本声源信号和所述样本声源信号对应的参考定位结果和 参考识别结果训练得到 。 2.根据权利要求1所述的基于位置编码卷积神经网络的声音定位识别方法, 其特征在 于, 所述特征提取模型包括第一子特征提取模型和第二子特征提取模型, 所述特征向量包 括第一子特 征向量和第二子特 征向量; 相应地, 所述将所述目标声源信号和所述编码结果输入所述多任务模型中的特征提取 模型, 得到所述目标声源信号的特 征向量, 包括: 将所述目标声源信号和所述编码结果输入所述第 一子特征提取模型, 得到所述目标声 源信号的第一子特征向量, 将所述目标声源信号和所述编 码结果输入所述第二子特征提取 模型, 得到所述目标声源信号的第二子特 征向量; 其中, 所述第一子特征提取模型用于提取与所述目标声源信号的定位结果相关的特 征, 所述第二子特 征提取模型用于提取与所述目标声源信号的识别结果相关的特 征。 3.根据权利要求1所述的基于位置编码卷积神经网络的声音定位识别方法, 其特征在 于, 所述特 征提取模型包 含至少一组位置信息保持模块和池化模块; 所述位置信息保持模块包 含多个不同尺度的第一卷积模块, 以及第二卷积模块; 多个不同尺度的第 一卷积模块, 用于对所述目标声源信号和所述编码结果进行多尺度 特征提取, 得到所述目标声源信号的多个不同尺度的特 征向量; 第二卷积模块, 用于对多个不同尺度的特 征向量进行融合; 所述池化模块, 用于对融合结果进行池化操作。 4.根据权利要求1 ‑3任一所述的基于位置编码卷积神经网络的声音定位识别方法, 其 特征在于, 所述定位识别模型包括至少一组并行的第一Transformer模型和第二 Transformer模型; 每组所述第一Transformer模型用于对所述目标声源信号的每一声 音事件进行定位; 每组所述第二Transformer模型用于对所述目标声源信号的每一声 音事件进行识别。 5.根据权利要求1 ‑3任一所述的基于位置编码卷积神经网络的声音定位识别方法, 其 特征在于, 在所述将目标声源信号输入多任务模型中的编码模型, 得到所述 目标声源信号 的编码结果之前, 还 包括: 对所述样本声源信号进行初步数据增强后, 进行初步特征提取, 得到所述样本声源信 号的初步特 征向量; 和/或, 对所述样本声源信号的初步特 征向量中的部分特 征向量, 进行 再次数据增强;权 利 要 求 书 1/2 页 2 CN 114420150 A 2根据所述样本声源信号的初步特征向量和/或再次数据增强后的部分特征向量, 以及 所述样本声源信号对应的参 考定位结果和参 考识别结果对所述多任务模型进行训练。 6.根据权利要求5所述的基于位置编码卷积神经网络的声音定位识别方法, 其特征在 于, 所述初步特 征向量包括对数梅尔声谱特 征向量和强度特 征向量; 相应地, 对所述样本声源信号的初步特征向量中的部分特征向量, 进行再次数据增强, 包括: 对所述初步特 征向量中的对数梅尔声谱特 征向量, 进行梅尔声谱数据增强。 7.根据权利要求5所述的基于位置编码卷积神经网络的声音定位识别方法, 其特征在 于, 所述初步数据增强包括按照一种或多种方向对 所述样本声源信号进 行旋转, 和/或对不 同类别的样本声源信号进行随机 叠加数据增强。 8.一种基于位置编码卷积神经网络的声 音定位识别装置, 其特 征在于, 包括: 编码模块, 用于将目标声源信号输入多任务模型中的编码模型, 得到所述目标声源信 号的编码结果; 其中, 所述编码模型用于对所述目标声源信号进行位置信息编码; 特征提取模块, 用于将所述目标声源信号和所述编码结果输入所述多任务模型中的特 征提取模型, 得到所述目标声源信号的特 征向量; 解码模块, 用于将所述目标声源信号的特征向量输入所述多任务模型中的解码模型, 得到所述目标声源信号的解码结果; 定位识别模块, 用于将所述目标声源信号的解码结果输入所述多任务模型中的定位识 别模型, 得到所述目标声源信号的定位结果和识别结果; 其中, 所述多任务模型基于样本声源信号和所述样本声源信号对应的参考定位结果和 参考识别结果训练得到 。 9.一种电子设备, 包括存储器、 处理器及存储在所述存储器上并可在所述处理器上运 行的计算机程序, 其特征在于, 所述处理器执行所述程序时实现如权利要求1至7任一项所 述基于位置编码卷积神经网络的声 音定位识别方法的步骤。 10.一种非暂态计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算 机程序被处理器执行时实现如权利要求1至7任一项所述基于位置编码卷积神经网络的声 音定位识别方法的步骤。权 利 要 求 书 2/2 页 3 CN 114420150 A 3
专利 基于位置编码卷积神经网络的声音定位识别方法及装置
文档预览
中文文档
22 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 人生无常 于
2024-03-18 21:49:57
上传分享
举报
下载
原文档
(768.5 KB)
分享
友情链接
GB-T 41131-2021 科技馆展览教育服务规范.pdf
上海市重大行政决策程序规定.pdf
NB-T 10179-2019 煤矿在用高压开关设备电气试验规范.pdf
GM-T 0047-2016 安全电子签章密码检测规范.pdf
GB-T 40873-2021 大洋富钴结壳资源勘查规程.pdf
ISO 31000-2018.pdf
5-02-01-02 造林更新工.pdf
DB43-T 2055-2021 水上交通气象灾害风险预警等级划分预评标准 湖南省.pdf
清华大学 - SuperBench大模型综合能力评测报告 0412 v2.2.pdf
GB-T 19465-2004 工业用异丁烷 (HC-600a).pdf
GB-T 28750-2012 节能量测量和验证技术通则.pdf
GB-T 39334.2-2020 机械产品制造过程数字化仿真 第2部分:生产线规划和布局仿真要求.pdf
DB35-T 1777-2018 政务数据汇聚 数据集的规范化描述 福建省.pdf
T-CCSAS 026—2023 化工企业操作规程管理规范.pdf
GB-T 6414-2017 铸件 尺寸公差、几何公差与机械加工余量.pdf
DB51-T 2868-2022 机关事务应急保障规范 四川省.pdf
GA-T 460.4-2020 居民身份证卡体材料及打印薄膜技术规范 第4部分:制卡用模块、线圈承载层白色PETG薄膜.pdf
DB31-T 367-2022 黄浦江游览船及码头运营设施与服务质量要求 上海市.pdf
DB23-T 3477—2023 黑龙江省企业数字化采购指南 黑龙江省.pdf
GB-T 42892-2023 项目管理敏捷化指南.pdf
1
/
3
22
评价文档
赞助2元 点击下载(768.5 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。