专利 基于语音多任务学习的脑卒中康复评估辅助分析方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111665085.1 (22)申请日 2021.12.31 (71)申请人杭州电子科技大学地址 310018 浙江省杭州市下沙高教园区2 号大街 (72)发明人曹九稳　葛宇　王天磊　赖晓平　 (74)专利代理机构杭州君度专利代理事务所 (特殊普通合伙) 33240 代理人朱月芬 (51)Int.Cl. G16H 50/20(2018.01) G16H 50/30(2018.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G10L 25/24(2013.01) G10L 25/30(2013.01) G10L 25/66(2013.01) (54)发明名称基于语音多任务学习的脑卒中康复评估辅助分析方法 (57)摘要本发明公开了一种基于语音多任务学习的脑卒中康复评估辅助分析方法。提出主任务为对脑卒中语音功能损伤评估，以预测分数的回归任务，和辅助任务为对脑卒中语音功能损伤严重程度分类的分类任务的多任务学习模型。其中底层模型为基于梅尔频谱图(M el spectrogram)的深度残差网络(Resnet50)的特征提取模型与长短期记忆网络(LS TM)的时序序列预测模型，而顶层模型为主任务与辅助任务各自对应的全连接神经网络。采用的损失函数为均方误差损失函数和交叉熵损失函数的加权叠加。本发明采用的多任务学习机制能够降低模型过拟合概率，并有效减少预测误差，通过预测分数能够清楚地了解患者当前的康复状况。权利要求书3页说明书8页附图1页 CN 114141366 A 2022.03.04 CN 114141366 A 1.基于语音多任务学习的脑卒中康复评估辅助分析方法，其特征在于包括如下步骤：步骤1、将输入的语音数据截取成4秒的固定长度，对语音信号进行预加重、分帧和加窗，对每帧信号进行短时傅里叶变换，并通过梅尔滤波器组得到梅尔频谱图；之后在梅尔频谱图上按帧长为64帧，帧移为30帧进行截取，得到静态片段级梅尔频谱，并计算其一阶差分、二阶差分，将静态、一阶差分、二阶差分叠加，最后得到 64*64像素的片段级梅尔频谱图；步骤2、已有数据集的标签是医生对语音功能损伤的评估分数，按照评估分数的区间将现有的数据划分为四个严重程度等级，作为辅助分类任务的标签；步骤3、对步骤1提取的片段级梅尔频谱图，使用改进的Resnet50深度卷积神经网络，利用硬参数共享机制，在主任务为脑卒中语音功能损伤分数预测的回归任务的基础上，加上脑卒中语音功能损伤严重程度分类的辅助分类任务；使用预训练网络权重，加入步骤2的标签，并修改损失函数，训练模型，提取10 0维深度特征；步骤4、将步骤3得到的片段级梅尔频谱图的100维深度特征按时间顺序组成话语级特征，采用三层LSTM网络，利用硬参数共享机制，在主任务为脑卒中语音功能损伤分数预测的回归任务的基础上，加上脑卒中语音功能损伤严重程度分类的辅助分类任务，并修改损失函数，训练模型，最终得到语音功能损伤的评估分数。 2.根据权利要求1所述的基于语音多任务学习的脑卒中康复评估辅助分析方法，其特征在于所述步骤1的具体实现如下： 1‑1将原始语音信号截取成四秒的固定长度，超过四秒的片段舍弃，不够四秒的片段将已有的片段复制补充到四秒的长度； 1‑2将语音信号通过一个高通滤波器： H(z)＝1 ‑μz‑1，增强信号中的高频部分；之后采用帧长为25毫秒，帧移为10毫秒的方式对信号进行分帧操作；然后将每一帧乘以汉明窗； 1‑3对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的短时幅度谱，将短时幅度谱取模平方并通过滤波器数量为64的梅尔滤波器组得到梅尔频谱图，梅尔滤波器组：梅尔频谱图：最终4秒的音频经过处理得到40 0*64像素的梅尔频谱； 1‑4对400*64像素的梅尔频谱按帧长为64像素，帧移为30像素进行截取，得到梅尔频谱图的静态图像，再计算其一阶差分和二阶差分，将静态图像和一阶、二阶差分叠加，组成类似于RGB三通道的图片；最终一段4s的音频经过截取总共得到13个64*64像素的片段级的梅尔频谱图。 3.根据权利要求1或2所述的基于语音多任务学习的脑卒中康复评估辅助分析方法，其特征在于所述步骤2的具体实现如下： 2‑1将评估分数区间为85～ 100的样本设置为轻微类型，区间75～84的样本设置为中等类型，区间6 5～74的样本设置为严重类型，区间6 0～64的样本设置为非常严重类型。权　利　要　求　书 1/3 页 2 CN 114141366 A 24.根据权利要求1所述的基于语音多任务学习的脑卒中康复评估辅助分析方法，其特征在于所述步骤3的具体实现如下： 3‑1改进的Resnet50网络结构如下：原用于ImageNet1000个类别分类的Resnet50网络输出层共有1000个神经元，将其修改为100个神经元；之后再分别为两个任务添加各自的网络输出层，回归任务的输出层为1个神经元，分类任务的输出层为 4个神经元； 3‑2采用多任务学习机制进行训练，模型应用硬参数共享机制，即两个任务输出层之前的网络层共享参数，只有输出层对应各自的网络参数；回归任务对应均方损失函数 MSELoss，分类任务对应交叉熵损失函数CrossEntropyLoss，因此所用的损失函数 TotalLoss为均方损失函数和交叉熵损失函数的加权叠加；并利用迁移学习的方式，通过加载预训练Resnet5 0网络的权重参数，能有效加快网络的训练速度； xi和分别代表回归任务对应的预测值和标签值，和yij分别代表分类任务的预测值和标签值， n表示每次训练一个batch的样本量， m表示辅助分类任务所对应的类别数量；其中本发明所采用的α ＝1， β ＝0.5； 3‑3模型训练完后，输入片段级梅尔频谱图，将修改后Resnet50网络的倒数第二层的输出作为特征；因为倒数第二层有10 0个神经元，所以特征维数为10 0维。 5.根据权利要求1所述的基于语音多任务学习的脑卒中康复评估辅助分析方法，其特征在于所述步骤4的具体实现如下： 4‑1将得到的100维片段级特征按梅尔频谱图截取的时间顺序组成话语级特征，因此每个4s的语音片段经过处理后得到13 *100维的话语级特征； 4‑2采用三层LSTM网络对输入的话语级特征进行预测，每层64个神经元，使用dropout ＝0.5减少网络过拟合； 4‑3同样采用多任务学习机制进行训练， LSTM回归任务的输出层一个神经元，分类任务的输出层四个神经元，模型应用硬参数共享机制，两个任务的输出层之前的网络层共享参数，只有输出层对应各自的网络参数；所用的损失函数TotalLoss为均方损失函数和交叉熵损失函数的加权叠加；权　利　要　求　书 2/3 页 3 CN 114141366 A 3

专利 基于语音多任务学习的脑卒中康复评估辅助分析方法

专利基于语音多任务学习的脑卒中康复评估辅助分析方法