团体标准网
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111678366.0 (22)申请日 2021.12.31 (71)申请人 深圳市优必选科技股份有限公司 地址 518000 广东省深圳市南 山区学苑大 道1001号南山智园C1栋16、 2 2楼 (72)发明人 丁万 黄东延 梁景俊 (74)专利代理 机构 深圳中一联合知识产权代理 有限公司 4 4414 专利代理师 任敏 (51)Int.Cl. G10L 13/02(2013.01) G10L 13/10(2013.01) G10L 15/183(2013.01) G10L 19/04(2013.01) G10L 25/18(2013.01)G10L 25/30(2013.01) G10L 25/51(2013.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种语音播 放方法及计算机设备 (57)摘要 本申请涉及人工智能技术领域, 提供了一种 语音播放方法、 语音播放装置、 计算机设备及计 算机可读 存储介质。 其中, 一种语音播放方法, 通 过利用预设的韵律特征预测网络, 根据文本序列 的文本特征进行韵律预测, 得到文本序列的韵律 特征, 由于韵律特征能够用于表征文本序列中单 位文本内容的声学特征, 因此将文本特征与韵律 特征作为联合特征, 输入训练后的声学模型进行 上下文依赖关系挖掘, 使 得输出的梅尔频谱能够 用于表征文本序列中单位文本内容的声学特征、 上下文依赖关系以及发音时机, 最后基于梅尔频 谱播放与文本序列对应的语音内容, 能够在文本 转换为语音的场景中, 提高语音质量。 权利要求书2页 说明书10页 附图3页 CN 114495896 A 2022.05.13 CN 114495896 A 1.一种语音播 放方法, 其特 征在于, 包括: 利用训练好的韵律特征预测网络, 根据文本序列的文本特征进行韵律预测, 得到所述 文本序列的韵律特 征; 将所述文本特征与 所述韵律特征作为联合特征, 输入训练后的声学模型进行上下文依 赖关系挖掘, 输出梅尔频谱; 基于所述 梅尔频谱播 放与所述文本序列对应的语音内容。 2.根据权利要求1所述的语音播放方法, 其特征在于, 在所述利用训练好的韵律特征预 测网络, 根据文本序列的文本特征进行韵律预测, 得到所述文本序列的韵律特征 的步骤之 前, 还包括: 对文本序列样本与 所述文本序列样本对应的语音样本分别进行分析处理, 得到相互关 联的文本样本特 征与语音样本特 征; 利用所述文本样本特征与 所述语音样本特征作为第 一训练样本, 对韵律特征预测网络 进行训练, 得到训练好的韵律特 征预测网络 。 3.根据权利要求2所述的语音播放方法, 其特征在于, 在所述将所述文本特征与所述韵 律特征作为联合特征, 输入训练后的声学模型进行上下文依赖关系挖掘, 输出梅尔频谱的 步骤之前, 还 包括: 利用所述文本样本特征与所述语音样本特征作为第二训练样本, 对声学模型进行训 练, 得到训练后的声学模型。 4.根据权利要求1至3任一项所述的语音播放方法, 其特征在于, 所述利用训练好的韵 律特征预测网络, 根据文本序列的文本特征进行韵律预测, 得到所述文本序列的韵律特征, 包括: 通过长短时记忆网络基于文本序列的编码结果进行时间信 息与上下文依赖关系抽取, 得到所述文本序列的文本特征; 其中, 所述文本序列的编码结果是利用深度神经网络对文 本序列进行编码得到; 所述文本特 征携带有所述文本序列的音素信息; 利用训练好的韵律特征预测网络, 基于所述文本特征携带的音素信息进行韵律预测, 得到所述文本序列的韵律特 征。 5.根据权利要求1至3任一项所述的语音播放方法, 其特征在于, 所述将所述文本特征 与所述韵律特征作为联合特征, 输入训练后的声学模型进行上下文依赖挖掘关系, 输出梅 尔频谱, 包括: 为每一帧所述联合特 征拼接位置编码, 得到携带有位置编码的联合特 征; 通过所述训练后的声学模型中的多头注意力模块, 基于所述携带有位置编码的联合特 征进行上下文依赖关系挖掘, 输出梅尔频谱。 6.根据权利要求5所述的语音播放方法, 其特征在于, 所述通过所述训练后的声学模型 中的多头注意力模块, 基于所述携带有位置编码的联合特征进行上下文依赖关系挖掘, 输 出梅尔频谱, 包括: 通过所述训练后的声学模型中的第一多头注意力层对所述携带有位置编码的联合特 征进行特征提取, 且通过第一全连接层输出 特征提取结果; 利用所述训练后的声学模型中的长度调节器与 预设的时长模型, 对所述特征提取结果 沿时间维度进行 特征扩展, 得到扩展特 征集;权 利 要 求 书 1/2 页 2 CN 114495896 A 2通过所述训练后的声学模型中的第 二多头注意力层, 基于所述扩展特征集进行线性变 换, 输出梅尔频谱。 7.根据权利要求6所述的语音播放方法, 其特征在于, 所述通过所述训练后的声学模型 中的第二多头注意力层, 基于所述扩展特 征集进行线性变换, 输出梅尔频谱, 包括: 为所述扩展特征集中的每一帧扩展特征拼接位置编码, 得到携带有位置编码的扩展特 征集; 通过所述训练后的声学模型中的第二多头注意力层对所述携带有位置编码的扩展特 征集进行非线性变换, 且通过第二全连接层输出非线性变换 结果; 通过所述训练后的声学模型中的卷积层对所述非线性变换结果进行残差计算, 且通过 线性层根据残差计算的结果进行回归预测, 输出梅尔频谱。 8.一种语音播 放装置, 其特 征在于, 包括: 预测单元, 用于利用训练好的韵律特征预测网络, 根据文本序列的文本特征进行韵律 预测, 得到所述文本序列的韵律特 征; 挖掘单元, 用于将所述文本特征与所述韵律特征作为联合特征, 输入训练后的声学模 型进行上下文依赖关系挖掘, 输出梅尔频谱; 输出单元, 用于基于所述 梅尔频谱播 放与所述文本序列对应的语音内容。 9.一种计算机设备, 其特征在于, 所述计算机设备包括存储器、 处理器以及存储在所述 存储器中并可在所述处理器上运行的计算机程序, 所述处理器执行所述计算机程序时如权 利要求1至7任一项所述方法的步骤。 10.一种计算机可读存储介质, 所述计算机可读存储介质存储有计算机程序, 其特征在 于, 所述计算机程序被处 理器执行时实现如权利要求1至7任一项所述方法的步骤。权 利 要 求 书 2/2 页 3 CN 114495896 A 3
专利 一种语音播放方法及计算机设备
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助2元下载(无需注册)
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助2元下载
本文档由 人生无常 于
2024-03-18 21:49:01
上传分享
举报
下载
原文档
(654.8 KB)
分享
友情链接
GB-T 42452-2023 系统与软件工程 功能规模测量 COSMIC方法.pdf
GB-T 30677-2014 轻型汽车电子稳定性控制系统性能要求及试验方法.pdf
GB-T 43229-2023 交通信号控制机与车辆检测器间通信协议.pdf
GB-T 32385.1-2015 光纤预制棒 第1部分:总规范.pdf
GB-T 9473-2017 读写作业台灯性能要求.pdf
DB21-T 3870-2023 工业数字化转型典型场景评估规范 辽宁省.pdf
GB 29743.1-2022 机动车冷却液 第1部分:燃油汽车发动机冷却液.pdf
GB-T 30149-2019 电网通用模型描述规范.pdf
DB5119-T 17-2020 巴州虫白蜡生产技术规程 巴中市.pdf
GB-T 958-2015 区域地质图图例.pdf
GB-T 25059-2010 信息安全技术 公钥基础设施 简易在线证书状态协议.pdf
GB-T 18781-2023 珍珠分级.pdf
GB-T 15552-2015 丝织物试验方法和检验规则.pdf
GB-T 23799-2021 车用甲醇汽油 M85.pdf
GB-T 20512-2006 GPS接收机导航定位数据输出格式.pdf
信通院 安全托管运营服务(MSS)发展态势洞察报告.pdf
GB-T 36643-2018 信息安全技术 网络安全威胁信息格式规范.pdf
GB-T 36629.3-2018 信息安全技术 公民网络电子身份标识安全技术要求 第3部分:验证服务消息及其处理规则.pdf
T-XJNFCP 002—2023 预制菜保质期通用规范.pdf
DB5104-T 54.1-2022 节能改造技术规范 第1部分:水泵系统 攀枝花市.pdf
1
/
3
16
评价文档
赞助2元 点击下载(654.8 KB)
回到顶部
×
微信扫码支付
2
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。