专利 一种语音播放方法及计算机设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111678366.0 (22)申请日 2021.12.31 (71)申请人深圳市优必选科技股份有限公司地址 518000 广东省深圳市南山区学苑大道1001号南山智园C1栋16、 2 2楼 (72)发明人丁万　黄东延　梁景俊　 (74)专利代理机构深圳中一联合知识产权代理有限公司 4 4414 专利代理师任敏 (51)Int.Cl. G10L 13/02(2013.01) G10L 13/10(2013.01) G10L 15/183(2013.01) G10L 19/04(2013.01) G10L 25/18(2013.01)G10L 25/30(2013.01) G10L 25/51(2013.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种语音播放方法及计算机设备 (57)摘要本申请涉及人工智能技术领域，提供了一种语音播放方法、语音播放装置、计算机设备及计算机可读存储介质。其中，一种语音播放方法，通过利用预设的韵律特征预测网络，根据文本序列的文本特征进行韵律预测，得到文本序列的韵律特征，由于韵律特征能够用于表征文本序列中单位文本内容的声学特征，因此将文本特征与韵律特征作为联合特征，输入训练后的声学模型进行上下文依赖关系挖掘，使得输出的梅尔频谱能够用于表征文本序列中单位文本内容的声学特征、上下文依赖关系以及发音时机，最后基于梅尔频谱播放与文本序列对应的语音内容，能够在文本转换为语音的场景中，提高语音质量。权利要求书2页说明书10页附图3页 CN 114495896 A 2022.05.13 CN 114495896 A 1.一种语音播放方法，其特征在于，包括：利用训练好的韵律特征预测网络，根据文本序列的文本特征进行韵律预测，得到所述文本序列的韵律特征；将所述文本特征与所述韵律特征作为联合特征，输入训练后的声学模型进行上下文依赖关系挖掘，输出梅尔频谱；基于所述梅尔频谱播放与所述文本序列对应的语音内容。 2.根据权利要求1所述的语音播放方法，其特征在于，在所述利用训练好的韵律特征预测网络，根据文本序列的文本特征进行韵律预测，得到所述文本序列的韵律特征的步骤之前，还包括：对文本序列样本与所述文本序列样本对应的语音样本分别进行分析处理，得到相互关联的文本样本特征与语音样本特征；利用所述文本样本特征与所述语音样本特征作为第一训练样本，对韵律特征预测网络进行训练，得到训练好的韵律特征预测网络。 3.根据权利要求2所述的语音播放方法，其特征在于，在所述将所述文本特征与所述韵律特征作为联合特征，输入训练后的声学模型进行上下文依赖关系挖掘，输出梅尔频谱的步骤之前，还包括：利用所述文本样本特征与所述语音样本特征作为第二训练样本，对声学模型进行训练，得到训练后的声学模型。 4.根据权利要求1至3任一项所述的语音播放方法，其特征在于，所述利用训练好的韵律特征预测网络，根据文本序列的文本特征进行韵律预测，得到所述文本序列的韵律特征，包括：通过长短时记忆网络基于文本序列的编码结果进行时间信息与上下文依赖关系抽取，得到所述文本序列的文本特征；其中，所述文本序列的编码结果是利用深度神经网络对文本序列进行编码得到；所述文本特征携带有所述文本序列的音素信息；利用训练好的韵律特征预测网络，基于所述文本特征携带的音素信息进行韵律预测，得到所述文本序列的韵律特征。 5.根据权利要求1至3任一项所述的语音播放方法，其特征在于，所述将所述文本特征与所述韵律特征作为联合特征，输入训练后的声学模型进行上下文依赖挖掘关系，输出梅尔频谱，包括：为每一帧所述联合特征拼接位置编码，得到携带有位置编码的联合特征；通过所述训练后的声学模型中的多头注意力模块，基于所述携带有位置编码的联合特征进行上下文依赖关系挖掘，输出梅尔频谱。 6.根据权利要求5所述的语音播放方法，其特征在于，所述通过所述训练后的声学模型中的多头注意力模块，基于所述携带有位置编码的联合特征进行上下文依赖关系挖掘，输出梅尔频谱，包括：通过所述训练后的声学模型中的第一多头注意力层对所述携带有位置编码的联合特征进行特征提取，且通过第一全连接层输出特征提取结果；利用所述训练后的声学模型中的长度调节器与预设的时长模型，对所述特征提取结果沿时间维度进行特征扩展，得到扩展特征集；权　利　要　求　书 1/2 页 2 CN 114495896 A 2通过所述训练后的声学模型中的第二多头注意力层，基于所述扩展特征集进行线性变换，输出梅尔频谱。 7.根据权利要求6所述的语音播放方法，其特征在于，所述通过所述训练后的声学模型中的第二多头注意力层，基于所述扩展特征集进行线性变换，输出梅尔频谱，包括：为所述扩展特征集中的每一帧扩展特征拼接位置编码，得到携带有位置编码的扩展特征集；通过所述训练后的声学模型中的第二多头注意力层对所述携带有位置编码的扩展特征集进行非线性变换，且通过第二全连接层输出非线性变换结果；通过所述训练后的声学模型中的卷积层对所述非线性变换结果进行残差计算，且通过线性层根据残差计算的结果进行回归预测，输出梅尔频谱。 8.一种语音播放装置，其特征在于，包括：预测单元，用于利用训练好的韵律特征预测网络，根据文本序列的文本特征进行韵律预测，得到所述文本序列的韵律特征；挖掘单元，用于将所述文本特征与所述韵律特征作为联合特征，输入训练后的声学模型进行上下文依赖关系挖掘，输出梅尔频谱；输出单元，用于基于所述梅尔频谱播放与所述文本序列对应的语音内容。 9.一种计算机设备，其特征在于，所述计算机设备包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时如权利要求1至7任一项所述方法的步骤。 10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。权　利　要　求　书 2/2 页 3 CN 114495896 A 3

专利 一种语音播放方法及计算机设备

专利一种语音播放方法及计算机设备