团体标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111678366.0 (22)申请日 2021.12.31 (71)申请人 深圳市优必选科技股份有限公司 地址 518000 广东省深圳市南 山区学苑大 道1001号南山智园C1栋16、 2 2楼 (72)发明人 丁万 黄东延 梁景俊  (74)专利代理 机构 深圳中一联合知识产权代理 有限公司 4 4414 专利代理师 任敏 (51)Int.Cl. G10L 13/02(2013.01) G10L 13/10(2013.01) G10L 15/183(2013.01) G10L 19/04(2013.01) G10L 25/18(2013.01)G10L 25/30(2013.01) G10L 25/51(2013.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种语音播 放方法及计算机设备 (57)摘要 本申请涉及人工智能技术领域, 提供了一种 语音播放方法、 语音播放装置、 计算机设备及计 算机可读 存储介质。 其中, 一种语音播放方法, 通 过利用预设的韵律特征预测网络, 根据文本序列 的文本特征进行韵律预测, 得到文本序列的韵律 特征, 由于韵律特征能够用于表征文本序列中单 位文本内容的声学特征, 因此将文本特征与韵律 特征作为联合特征, 输入训练后的声学模型进行 上下文依赖关系挖掘, 使 得输出的梅尔频谱能够 用于表征文本序列中单位文本内容的声学特征、 上下文依赖关系以及发音时机, 最后基于梅尔频 谱播放与文本序列对应的语音内容, 能够在文本 转换为语音的场景中, 提高语音质量。 权利要求书2页 说明书10页 附图3页 CN 114495896 A 2022.05.13 CN 114495896 A 1.一种语音播 放方法, 其特 征在于, 包括: 利用训练好的韵律特征预测网络, 根据文本序列的文本特征进行韵律预测, 得到所述 文本序列的韵律特 征; 将所述文本特征与 所述韵律特征作为联合特征, 输入训练后的声学模型进行上下文依 赖关系挖掘, 输出梅尔频谱; 基于所述 梅尔频谱播 放与所述文本序列对应的语音内容。 2.根据权利要求1所述的语音播放方法, 其特征在于, 在所述利用训练好的韵律特征预 测网络, 根据文本序列的文本特征进行韵律预测, 得到所述文本序列的韵律特征 的步骤之 前, 还包括: 对文本序列样本与 所述文本序列样本对应的语音样本分别进行分析处理, 得到相互关 联的文本样本特 征与语音样本特 征; 利用所述文本样本特征与 所述语音样本特征作为第 一训练样本, 对韵律特征预测网络 进行训练, 得到训练好的韵律特 征预测网络 。 3.根据权利要求2所述的语音播放方法, 其特征在于, 在所述将所述文本特征与所述韵 律特征作为联合特征, 输入训练后的声学模型进行上下文依赖关系挖掘, 输出梅尔频谱的 步骤之前, 还 包括: 利用所述文本样本特征与所述语音样本特征作为第二训练样本, 对声学模型进行训 练, 得到训练后的声学模型。 4.根据权利要求1至3任一项所述的语音播放方法, 其特征在于, 所述利用训练好的韵 律特征预测网络, 根据文本序列的文本特征进行韵律预测, 得到所述文本序列的韵律特征, 包括: 通过长短时记忆网络基于文本序列的编码结果进行时间信 息与上下文依赖关系抽取, 得到所述文本序列的文本特征; 其中, 所述文本序列的编码结果是利用深度神经网络对文 本序列进行编码得到; 所述文本特 征携带有所述文本序列的音素信息; 利用训练好的韵律特征预测网络, 基于所述文本特征携带的音素信息进行韵律预测, 得到所述文本序列的韵律特 征。 5.根据权利要求1至3任一项所述的语音播放方法, 其特征在于, 所述将所述文本特征 与所述韵律特征作为联合特征, 输入训练后的声学模型进行上下文依赖挖掘关系, 输出梅 尔频谱, 包括: 为每一帧所述联合特 征拼接位置编码, 得到携带有位置编码的联合特 征; 通过所述训练后的声学模型中的多头注意力模块, 基于所述携带有位置编码的联合特 征进行上下文依赖关系挖掘, 输出梅尔频谱。 6.根据权利要求5所述的语音播放方法, 其特征在于, 所述通过所述训练后的声学模型 中的多头注意力模块, 基于所述携带有位置编码的联合特征进行上下文依赖关系挖掘, 输 出梅尔频谱, 包括: 通过所述训练后的声学模型中的第一多头注意力层对所述携带有位置编码的联合特 征进行特征提取, 且通过第一全连接层输出 特征提取结果; 利用所述训练后的声学模型中的长度调节器与 预设的时长模型, 对所述特征提取结果 沿时间维度进行 特征扩展, 得到扩展特 征集;权 利 要 求 书 1/2 页 2 CN 114495896 A 2通过所述训练后的声学模型中的第 二多头注意力层, 基于所述扩展特征集进行线性变 换, 输出梅尔频谱。 7.根据权利要求6所述的语音播放方法, 其特征在于, 所述通过所述训练后的声学模型 中的第二多头注意力层, 基于所述扩展特 征集进行线性变换, 输出梅尔频谱, 包括: 为所述扩展特征集中的每一帧扩展特征拼接位置编码, 得到携带有位置编码的扩展特 征集; 通过所述训练后的声学模型中的第二多头注意力层对所述携带有位置编码的扩展特 征集进行非线性变换, 且通过第二全连接层输出非线性变换 结果; 通过所述训练后的声学模型中的卷积层对所述非线性变换结果进行残差计算, 且通过 线性层根据残差计算的结果进行回归预测, 输出梅尔频谱。 8.一种语音播 放装置, 其特 征在于, 包括: 预测单元, 用于利用训练好的韵律特征预测网络, 根据文本序列的文本特征进行韵律 预测, 得到所述文本序列的韵律特 征; 挖掘单元, 用于将所述文本特征与所述韵律特征作为联合特征, 输入训练后的声学模 型进行上下文依赖关系挖掘, 输出梅尔频谱; 输出单元, 用于基于所述 梅尔频谱播 放与所述文本序列对应的语音内容。 9.一种计算机设备, 其特征在于, 所述计算机设备包括存储器、 处理器以及存储在所述 存储器中并可在所述处理器上运行的计算机程序, 所述处理器执行所述计算机程序时如权 利要求1至7任一项所述方法的步骤。 10.一种计算机可读存储介质, 所述计算机可读存储介质存储有计算机程序, 其特征在 于, 所述计算机程序被处 理器执行时实现如权利要求1至7任一项所述方法的步骤。权 利 要 求 书 2/2 页 3 CN 114495896 A 3

.PDF文档 专利 一种语音播放方法及计算机设备

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种语音播放方法及计算机设备 第 1 页 专利 一种语音播放方法及计算机设备 第 2 页 专利 一种语音播放方法及计算机设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 21:49:01上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。