团体标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111676582.1 (22)申请日 2021.12.31 (71)申请人 中国人民解 放军陆军工程大 学 地址 210007 江苏省南京市秦淮区后标营 路88号 (72)发明人 张洪德 韩鑫怡 朱晓晶 马宝红  陈春明 刘博文 田田 赵芳  (74)专利代理 机构 北京力量专利代理事务所 (特殊普通 合伙) 11504 专利代理师 王鸿远 (51)Int.Cl. G10L 19/012(2013.01) G10L 21/0272(2013.01) G10L 25/30(2013.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 一种深度生成对抗网络的语音增强方法 (57)摘要 一种深度生 成对抗网络的语音增强方法, 包 括训练阶段和增强阶段。 训练阶段将带噪语音信 号输入生 成器中输出生成语音信号, 并作为输入 信号输入到第二个生成器中, 同时将生成语音信 号连同原始带噪语音信号一起输入判别器中; 判 别器分别对生成的语音信号进行判别, 并将反馈 信息分别返回各自生成器中, 整个深度生成对抗 网络获得具有增强能力。 增强阶段则将带噪语音 信号输入第一个生成器中, 通过整个已训练完毕 的深度生 成对抗网络模型处理, 由最后一个生成 器输出增强语音信号。 使整个模 型能够在更宽松 的条件下稳定的向更优的方向训练, 提高了深度 生成对抗网络的增强效果, 在不同噪声干扰条件 下, 提升了噪声适应性和 增强效果。 权利要求书2页 说明书9页 附图2页 CN 114446314 A 2022.05.06 CN 114446314 A 1.一种深度生成对抗网络的语音增强方法, 其特 征在于包括如下步骤: 步骤1: 数据预处理: 所有语音数据使用前均需要进行相应的预处理, 分别是对语音信 号进行重采样、 分帧和预加重; 步骤2: 构建数据集: 仿真实验的数据集由训练集和测试集两部分组成, 训练集用于 SEWDGAN‑div增强模型的训练, 测试集用于验证SEWDGAN ‑div增强模型的实际增强效果; 步骤3: 生成器模型构建: 生成器结构采用U ‑NET网络的全卷积网络, 分为编码和解码两 个部分; 步骤4: 判别器模型构建: 判别器结构采用生成器的编码部分, 除最后输出层为全连接 层以外, 其 他各层均为卷积层或卷积池化层; 步骤5: 构建基于Wasserstein  divergence的深度生成对抗网络模型: 网络的总体结构 由n生成器和1个判别器组成, 其中n个生 成器分别以“串联”的方式进 行连接, 每个生成器输 出的生成信号 一方面作为输入信号输入下个生成器, 另一方面输入判别器中进行判别; 步骤6: 模型训练: 基于Wasserstein  divergence的深度生成对抗 网络模型的训练采用 分批次训练的方法, 使用双时间尺度更新规则的训练方法, 通过将判别器的学习率设置高 于生成器的学习率, 以达 到判别器的判别能力领 先生成器的生成能力; 步骤7: 使用训练好的模型进行语音增强处理: 将带噪语音信号输入第一个生成器G1 中, 通过整个已训练完毕的深度生成对抗网络模型处理, 最终由最后一个生成器Gn输出增 强语音信号。 2.根据权利要求1所述的深度生成对抗网络的语音增强方法, 其特征在于上述步骤1的 数据预处理, 还包括: 所有语音 数据使用前均需要进 行相应的预处理, 分别是对语音信号进 行重采样、 分帧和预加重; 其中重采样是指以16kHz的采样率对所有语音信号进行重新采 样, 语音信号无论是训练阶段还是测试阶段均以语音帧为单位进行处理, 将所有语音信号 按照每帧长度为8192个采样点进行分帧, 并将训练阶段的帧移设置为50%, 而测试 阶段帧 移则设置为 100%; 在输入端加入 预加重处理, 并在输出端进 行对输出语音 数据进行相对应 的去加重处 理, 预加重和去加重系数均为0.95 。 3.根据权利要求1所述的深度生成对抗网络的语音增强方法, 其特征在于上述步骤2的 构建数据集, 还包括: 实验训练集和测试集中所使用的标准语音库和噪声库分别来自 Valentini2016数据集、 NOISEX ‑92数据集以及10 0Nonspeech Sounds数据集。 4.根据权利要求1所述的深度生成对抗网络的语音增强方法, 其特征在于上述步骤3的 生成器模型构建, 还包括: 加入跳跃链接, 编码部分由卷积层和卷积池化层构成; 解码部分 是与编码部分相对应的反卷积和反卷积池化层; 为增强模型鲁棒性, 将感知向量添加随机 噪声后输入解码部分。 生成器各层卷积核个数分别为16,32,32,64,128,128,2 56,512,512, 1024,512,512,256,128,128,64,32,32,16,1, 激活函数除最后一层使用Tanh函数外, 其他 各层均使用PReLU函数。 5.根据权利要求1所述的深度生成对抗网络的语音增强方法, 其特征在于上述步骤4的 判别器模型构建, 还包括: 使用层批量化(Layer  Normalization,LN)替代BN, 以加快网络模 型收敛。 判别器各层卷积核个数分别为16,32,32,64,128,128,256,512,512,1024,1, 激活 函数均使用LeakyReLU函数。 同时为防止训练出现过拟合, 在输入端添加高斯白噪声, 在输 出端设置一个dropout层。权 利 要 求 书 1/2 页 2 CN 114446314 A 26.根据权利要求1所述的深度生成对抗网络的语音增强方法, 其特征在于上述步骤5的 构建基于Wasserstein  divergence的深度生成对抗网络模型, 还包括: 各生成器的生成信 号是以“并联”的方式输入判别器, 同时反馈信息同样以 “并联”的方式返回各生成器中。权 利 要 求 书 2/2 页 3 CN 114446314 A 3

.PDF文档 专利 一种深度生成对抗网络的语音增强方法

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种深度生成对抗网络的语音增强方法 第 1 页 专利 一种深度生成对抗网络的语音增强方法 第 2 页 专利 一种深度生成对抗网络的语音增强方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 21:48:36上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。