专利 一种深度生成对抗网络的语音增强方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111676582.1 (22)申请日 2021.12.31 (71)申请人中国人民解放军陆军工程大学地址 210007 江苏省南京市秦淮区后标营路88号 (72)发明人张洪德　韩鑫怡　朱晓晶　马宝红　陈春明　刘博文　田田　赵芳　 (74)专利代理机构北京力量专利代理事务所 (特殊普通合伙) 11504 专利代理师王鸿远 (51)Int.Cl. G10L 19/012(2013.01) G10L 21/0272(2013.01) G10L 25/30(2013.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称一种深度生成对抗网络的语音增强方法 (57)摘要一种深度生成对抗网络的语音增强方法，包括训练阶段和增强阶段。训练阶段将带噪语音信号输入生成器中输出生成语音信号，并作为输入信号输入到第二个生成器中，同时将生成语音信号连同原始带噪语音信号一起输入判别器中；判别器分别对生成的语音信号进行判别，并将反馈信息分别返回各自生成器中，整个深度生成对抗网络获得具有增强能力。增强阶段则将带噪语音信号输入第一个生成器中，通过整个已训练完毕的深度生成对抗网络模型处理，由最后一个生成器输出增强语音信号。使整个模型能够在更宽松的条件下稳定的向更优的方向训练，提高了深度生成对抗网络的增强效果，在不同噪声干扰条件下，提升了噪声适应性和增强效果。权利要求书2页说明书9页附图2页 CN 114446314 A 2022.05.06 CN 114446314 A 1.一种深度生成对抗网络的语音增强方法，其特征在于包括如下步骤：步骤1：数据预处理：所有语音数据使用前均需要进行相应的预处理，分别是对语音信号进行重采样、分帧和预加重；步骤2：构建数据集：仿真实验的数据集由训练集和测试集两部分组成，训练集用于 SEWDGAN‑div增强模型的训练，测试集用于验证SEWDGAN ‑div增强模型的实际增强效果；步骤3：生成器模型构建：生成器结构采用U ‑NET网络的全卷积网络，分为编码和解码两个部分；步骤4：判别器模型构建：判别器结构采用生成器的编码部分，除最后输出层为全连接层以外，其他各层均为卷积层或卷积池化层；步骤5：构建基于Wasserstein divergence的深度生成对抗网络模型：网络的总体结构由n生成器和1个判别器组成，其中n个生成器分别以“串联”的方式进行连接，每个生成器输出的生成信号一方面作为输入信号输入下个生成器，另一方面输入判别器中进行判别；步骤6：模型训练：基于Wasserstein divergence的深度生成对抗网络模型的训练采用分批次训练的方法，使用双时间尺度更新规则的训练方法，通过将判别器的学习率设置高于生成器的学习率，以达到判别器的判别能力领先生成器的生成能力；步骤7：使用训练好的模型进行语音增强处理：将带噪语音信号输入第一个生成器G1 中，通过整个已训练完毕的深度生成对抗网络模型处理，最终由最后一个生成器Gn输出增强语音信号。 2.根据权利要求1所述的深度生成对抗网络的语音增强方法，其特征在于上述步骤1的数据预处理，还包括：所有语音数据使用前均需要进行相应的预处理，分别是对语音信号进行重采样、分帧和预加重；其中重采样是指以16kHz的采样率对所有语音信号进行重新采样，语音信号无论是训练阶段还是测试阶段均以语音帧为单位进行处理，将所有语音信号按照每帧长度为8192个采样点进行分帧，并将训练阶段的帧移设置为50％，而测试阶段帧移则设置为 100％；在输入端加入预加重处理，并在输出端进行对输出语音数据进行相对应的去加重处理，预加重和去加重系数均为0.95 。 3.根据权利要求1所述的深度生成对抗网络的语音增强方法，其特征在于上述步骤2的构建数据集，还包括：实验训练集和测试集中所使用的标准语音库和噪声库分别来自 Valentini2016数据集、 NOISEX ‑92数据集以及10 0Nonspeech Sounds数据集。 4.根据权利要求1所述的深度生成对抗网络的语音增强方法，其特征在于上述步骤3的生成器模型构建，还包括：加入跳跃链接，编码部分由卷积层和卷积池化层构成；解码部分是与编码部分相对应的反卷积和反卷积池化层；为增强模型鲁棒性，将感知向量添加随机噪声后输入解码部分。生成器各层卷积核个数分别为16,32,32,64,128,128,2 56,512,512, 1024,512,512,256,128,128,64,32,32,16,1，激活函数除最后一层使用Tanh函数外，其他各层均使用PReLU函数。 5.根据权利要求1所述的深度生成对抗网络的语音增强方法，其特征在于上述步骤4的判别器模型构建，还包括：使用层批量化(Layer Normalization,LN)替代BN，以加快网络模型收敛。判别器各层卷积核个数分别为16,32,32,64,128,128,256,512,512,1024,1，激活函数均使用LeakyReLU函数。同时为防止训练出现过拟合，在输入端添加高斯白噪声，在输出端设置一个dropout层。权　利　要　求　书 1/2 页 2 CN 114446314 A 26.根据权利要求1所述的深度生成对抗网络的语音增强方法，其特征在于上述步骤5的构建基于Wasserstein divergence的深度生成对抗网络模型，还包括：各生成器的生成信号是以“并联”的方式输入判别器，同时反馈信息同样以 “并联”的方式返回各生成器中。权　利　要　求　书 2/2 页 3 CN 114446314 A 3

专利 一种深度生成对抗网络的语音增强方法

专利一种深度生成对抗网络的语音增强方法