(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111676582.1
(22)申请日 2021.12.31
(71)申请人 中国人民解 放军陆军工程大 学
地址 210007 江苏省南京市秦淮区后标营
路88号
(72)发明人 张洪德 韩鑫怡 朱晓晶 马宝红
陈春明 刘博文 田田 赵芳
(74)专利代理 机构 北京力量专利代理事务所
(特殊普通 合伙) 11504
专利代理师 王鸿远
(51)Int.Cl.
G10L 19/012(2013.01)
G10L 21/0272(2013.01)
G10L 25/30(2013.01)
G06N 3/04(2006.01)G06N 3/08(2006.01)
(54)发明名称
一种深度生成对抗网络的语音增强方法
(57)摘要
一种深度生 成对抗网络的语音增强方法, 包
括训练阶段和增强阶段。 训练阶段将带噪语音信
号输入生 成器中输出生成语音信号, 并作为输入
信号输入到第二个生成器中, 同时将生成语音信
号连同原始带噪语音信号一起输入判别器中; 判
别器分别对生成的语音信号进行判别, 并将反馈
信息分别返回各自生成器中, 整个深度生成对抗
网络获得具有增强能力。 增强阶段则将带噪语音
信号输入第一个生成器中, 通过整个已训练完毕
的深度生 成对抗网络模型处理, 由最后一个生成
器输出增强语音信号。 使整个模 型能够在更宽松
的条件下稳定的向更优的方向训练, 提高了深度
生成对抗网络的增强效果, 在不同噪声干扰条件
下, 提升了噪声适应性和 增强效果。
权利要求书2页 说明书9页 附图2页
CN 114446314 A
2022.05.06
CN 114446314 A
1.一种深度生成对抗网络的语音增强方法, 其特 征在于包括如下步骤:
步骤1: 数据预处理: 所有语音数据使用前均需要进行相应的预处理, 分别是对语音信
号进行重采样、 分帧和预加重;
步骤2: 构建数据集: 仿真实验的数据集由训练集和测试集两部分组成, 训练集用于
SEWDGAN‑div增强模型的训练, 测试集用于验证SEWDGAN ‑div增强模型的实际增强效果;
步骤3: 生成器模型构建: 生成器结构采用U ‑NET网络的全卷积网络, 分为编码和解码两
个部分;
步骤4: 判别器模型构建: 判别器结构采用生成器的编码部分, 除最后输出层为全连接
层以外, 其 他各层均为卷积层或卷积池化层;
步骤5: 构建基于Wasserstein divergence的深度生成对抗网络模型: 网络的总体结构
由n生成器和1个判别器组成, 其中n个生 成器分别以“串联”的方式进 行连接, 每个生成器输
出的生成信号 一方面作为输入信号输入下个生成器, 另一方面输入判别器中进行判别;
步骤6: 模型训练: 基于Wasserstein divergence的深度生成对抗 网络模型的训练采用
分批次训练的方法, 使用双时间尺度更新规则的训练方法, 通过将判别器的学习率设置高
于生成器的学习率, 以达 到判别器的判别能力领 先生成器的生成能力;
步骤7: 使用训练好的模型进行语音增强处理: 将带噪语音信号输入第一个生成器G1
中, 通过整个已训练完毕的深度生成对抗网络模型处理, 最终由最后一个生成器Gn输出增
强语音信号。
2.根据权利要求1所述的深度生成对抗网络的语音增强方法, 其特征在于上述步骤1的
数据预处理, 还包括: 所有语音 数据使用前均需要进 行相应的预处理, 分别是对语音信号进
行重采样、 分帧和预加重; 其中重采样是指以16kHz的采样率对所有语音信号进行重新采
样, 语音信号无论是训练阶段还是测试阶段均以语音帧为单位进行处理, 将所有语音信号
按照每帧长度为8192个采样点进行分帧, 并将训练阶段的帧移设置为50%, 而测试 阶段帧
移则设置为 100%; 在输入端加入 预加重处理, 并在输出端进 行对输出语音 数据进行相对应
的去加重处 理, 预加重和去加重系数均为0.95 。
3.根据权利要求1所述的深度生成对抗网络的语音增强方法, 其特征在于上述步骤2的
构建数据集, 还包括: 实验训练集和测试集中所使用的标准语音库和噪声库分别来自
Valentini2016数据集、 NOISEX ‑92数据集以及10 0Nonspeech Sounds数据集。
4.根据权利要求1所述的深度生成对抗网络的语音增强方法, 其特征在于上述步骤3的
生成器模型构建, 还包括: 加入跳跃链接, 编码部分由卷积层和卷积池化层构成; 解码部分
是与编码部分相对应的反卷积和反卷积池化层; 为增强模型鲁棒性, 将感知向量添加随机
噪声后输入解码部分。 生成器各层卷积核个数分别为16,32,32,64,128,128,2 56,512,512,
1024,512,512,256,128,128,64,32,32,16,1, 激活函数除最后一层使用Tanh函数外, 其他
各层均使用PReLU函数。
5.根据权利要求1所述的深度生成对抗网络的语音增强方法, 其特征在于上述步骤4的
判别器模型构建, 还包括: 使用层批量化(Layer Normalization,LN)替代BN, 以加快网络模
型收敛。 判别器各层卷积核个数分别为16,32,32,64,128,128,256,512,512,1024,1, 激活
函数均使用LeakyReLU函数。 同时为防止训练出现过拟合, 在输入端添加高斯白噪声, 在输
出端设置一个dropout层。权 利 要 求 书 1/2 页
2
CN 114446314 A
26.根据权利要求1所述的深度生成对抗网络的语音增强方法, 其特征在于上述步骤5的
构建基于Wasserstein divergence的深度生成对抗网络模型, 还包括: 各生成器的生成信
号是以“并联”的方式输入判别器, 同时反馈信息同样以 “并联”的方式返回各生成器中。权 利 要 求 书 2/2 页
3
CN 114446314 A
3
专利 一种深度生成对抗网络的语音增强方法
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 21:48:36上传分享