专利 基于位置编码卷积神经网络的声音定位识别方法及装置

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111654890.4 (22)申请日 2021.12.3 0 (71)申请人中国人民解放军军事科学院国防科技创新研究院地址 100071 北京市丰台区东大街5 3号院 (72)发明人刘峰　李岱徽　陈亮　沈同圣　赵德鑫　丁昊　 (74)专利代理机构北京路浩知识产权代理有限公司 11002 代理人王庆龙 (51)Int.Cl. G10L 25/03(2013.01) G10L 25/18(2013.01) G10L 25/30(2013.01) G10L 25/51(2013.01)G06N 3/08(2006.01) G06N 3/04(2006.01) (54)发明名称基于位置编码卷积神经网络的声音定位识别方法及装置 (57)摘要本发明提供一种基于位置编码卷积神经网络的声音定位识别方法及装置，该方法包括：将目标声源信号输入多任务模型中的编码模型，得到目标声源信号的编码结果；将目标声源信号和编码结果输入多任务模型中的特征提取模型，得到目标声源信号的特征向量；将目标声源信号的特征向量输入多任务模型中的解码模型，得到目标声源信号的解码结果；将目标声源信号的解码结果输入多任务模型中的定位识别模型，得到目标声源信号的定位结果和识别结果。本发明实现消除特征向量中的时间位置信息干扰，从目标声源信号中深度挖掘影响定位任务和识别任务的本质特征，并充分考虑定位任务和识别任务之间的相关性和差异性，有效提高目标声源信号的定位精度和识别精度。权利要求书2页说明书15页附图4页 CN 114420150 A 2022.04.29 CN 114420150 A 1.一种基于位置编码卷积神经网络的声音定位识别方法，其特征在于，包括：将目标声源信号输入多任务模型中的编码模型，得到所述目标声源信号的编码结果；其中，所述编码模型用于对所述目标声源信号进行位置信息编码；将所述目标声源信号和所述编码结果输入所述多任务模型中的特征提取模型，得到所述目标声源信号的特征向量；将所述目标声源信号的特征向量输入所述多任务模型中的解码模型，得到所述目标声源信号的解码结果；将所述目标声源信号的解码结果输入所述多任务模型中的定位识别模型，得到所述目标声源信号的定位结果和识别结果；其中，所述多任务模型基于样本声源信号和所述样本声源信号对应的参考定位结果和参考识别结果训练得到。 2.根据权利要求1所述的基于位置编码卷积神经网络的声音定位识别方法，其特征在于，所述特征提取模型包括第一子特征提取模型和第二子特征提取模型，所述特征向量包括第一子特征向量和第二子特征向量；相应地，所述将所述目标声源信号和所述编码结果输入所述多任务模型中的特征提取模型，得到所述目标声源信号的特征向量，包括：将所述目标声源信号和所述编码结果输入所述第一子特征提取模型，得到所述目标声源信号的第一子特征向量，将所述目标声源信号和所述编码结果输入所述第二子特征提取模型，得到所述目标声源信号的第二子特征向量；其中，所述第一子特征提取模型用于提取与所述目标声源信号的定位结果相关的特征，所述第二子特征提取模型用于提取与所述目标声源信号的识别结果相关的特征。 3.根据权利要求1所述的基于位置编码卷积神经网络的声音定位识别方法，其特征在于，所述特征提取模型包含至少一组位置信息保持模块和池化模块；所述位置信息保持模块包含多个不同尺度的第一卷积模块，以及第二卷积模块；多个不同尺度的第一卷积模块，用于对所述目标声源信号和所述编码结果进行多尺度特征提取，得到所述目标声源信号的多个不同尺度的特征向量；第二卷积模块，用于对多个不同尺度的特征向量进行融合；所述池化模块，用于对融合结果进行池化操作。 4.根据权利要求1 ‑3任一所述的基于位置编码卷积神经网络的声音定位识别方法，其特征在于，所述定位识别模型包括至少一组并行的第一Transformer模型和第二 Transformer模型；每组所述第一Transformer模型用于对所述目标声源信号的每一声音事件进行定位；每组所述第二Transformer模型用于对所述目标声源信号的每一声音事件进行识别。 5.根据权利要求1 ‑3任一所述的基于位置编码卷积神经网络的声音定位识别方法，其特征在于，在所述将目标声源信号输入多任务模型中的编码模型，得到所述目标声源信号的编码结果之前，还包括：对所述样本声源信号进行初步数据增强后，进行初步特征提取，得到所述样本声源信号的初步特征向量；和/或，对所述样本声源信号的初步特征向量中的部分特征向量，进行再次数据增强；权　利　要　求　书 1/2 页 2 CN 114420150 A 2根据所述样本声源信号的初步特征向量和/或再次数据增强后的部分特征向量，以及所述样本声源信号对应的参考定位结果和参考识别结果对所述多任务模型进行训练。 6.根据权利要求5所述的基于位置编码卷积神经网络的声音定位识别方法，其特征在于，所述初步特征向量包括对数梅尔声谱特征向量和强度特征向量；相应地，对所述样本声源信号的初步特征向量中的部分特征向量，进行再次数据增强，包括：对所述初步特征向量中的对数梅尔声谱特征向量，进行梅尔声谱数据增强。 7.根据权利要求5所述的基于位置编码卷积神经网络的声音定位识别方法，其特征在于，所述初步数据增强包括按照一种或多种方向对所述样本声源信号进行旋转，和/或对不同类别的样本声源信号进行随机叠加数据增强。 8.一种基于位置编码卷积神经网络的声音定位识别装置，其特征在于，包括：编码模块，用于将目标声源信号输入多任务模型中的编码模型，得到所述目标声源信号的编码结果；其中，所述编码模型用于对所述目标声源信号进行位置信息编码；特征提取模块，用于将所述目标声源信号和所述编码结果输入所述多任务模型中的特征提取模型，得到所述目标声源信号的特征向量；解码模块，用于将所述目标声源信号的特征向量输入所述多任务模型中的解码模型，得到所述目标声源信号的解码结果；定位识别模块，用于将所述目标声源信号的解码结果输入所述多任务模型中的定位识别模型，得到所述目标声源信号的定位结果和识别结果；其中，所述多任务模型基于样本声源信号和所述样本声源信号对应的参考定位结果和参考识别结果训练得到。 9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述基于位置编码卷积神经网络的声音定位识别方法的步骤。 10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于位置编码卷积神经网络的声音定位识别方法的步骤。权　利　要　求　书 2/2 页 3 CN 114420150 A 3

专利 基于位置编码卷积神经网络的声音定位识别方法及装置

专利基于位置编码卷积神经网络的声音定位识别方法及装置