团体标准网
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111665085.1 (22)申请日 2021.12.31 (71)申请人 杭州电子科技大 学 地址 310018 浙江省杭州市下沙高教园区2 号大街 (72)发明人 曹九稳 葛宇 王天磊 赖晓平  (74)专利代理 机构 杭州君度专利代理事务所 (特殊普通 合伙) 33240 代理人 朱月芬 (51)Int.Cl. G16H 50/20(2018.01) G16H 50/30(2018.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G10L 25/24(2013.01) G10L 25/30(2013.01) G10L 25/66(2013.01) (54)发明名称 基于语音多任务学习的脑卒中康复评估辅 助分析方法 (57)摘要 本发明公开了一种基于语音多任务学习的 脑卒中康复评估辅助分析方法。 提出主任务为对 脑卒中语音功能损伤评估, 以预测分数的回归任 务, 和辅助任务为对脑卒中语音功能损伤严重程 度分类的分类任务的多任务学习模 型。 其中底层 模型为基于梅尔频谱图(M el spectrogram)的深 度残差网络(Resnet50)的特征提取模型与长短 期记忆网络(LS TM)的时序序列预测模型, 而顶层 模型为主任务与辅助任务各自对应的全连接神 经网络。 采用的损失函数为均方误差损失函数和 交叉熵损失函数的加权叠加。 本发 明采用的多任 务学习机制能够降低模型过拟合概率, 并有效减 少预测误差, 通过预测分数能够清楚地了解患者 当前的康复状况。 权利要求书3页 说明书8页 附图1页 CN 114141366 A 2022.03.04 CN 114141366 A 1.基于语音 多任务学习的脑卒中康复评估辅助分析 方法, 其特 征在于包括如下步骤: 步骤1、 将输入的语音数据截取成4秒的固定长度, 对语音信号进行预加重、 分帧和加 窗, 对每帧信号进 行短时傅里叶变换, 并通过梅尔滤波器组得到梅尔频谱图; 之后在梅尔频 谱图上按帧长为64帧, 帧移为30帧进行截取, 得到静态片段级梅尔频谱, 并计算其一阶差 分、 二阶差分, 将静态、 一阶差分、 二阶差分叠加, 最后得到 64*64像素的片段级梅尔频谱图; 步骤2、 已有数据集的标签是医生对语音功能损伤的评估分数, 按照评估分数的区间将 现有的数据划分为四个严重程度等级, 作为辅助分类任务的标签; 步骤3、 对步骤1提取的片段级梅尔频谱图, 使用改进的Resnet50深度卷积神经网络, 利 用硬参数共享机制, 在主任务为脑卒中语音功能损伤分数预测的回归任务的基础上, 加上 脑卒中语音功能损伤严重程度分类的辅助分类任务; 使用预训练网络权重, 加入步骤2的标 签, 并修改损失函数, 训练模型, 提取10 0维深度特 征; 步骤4、 将步骤3得到的片段级梅尔频谱图的100维深度特征按时间顺序组成话语级特 征, 采用三层LSTM网络, 利用硬参数共享机制, 在主任务为脑 卒中语音功能损伤分数预测的 回归任务的基础上, 加上脑卒中语音功 能损伤严重程度分类的辅助分类任务, 并修改损失 函数, 训练模型, 最终得到语音功能损伤的评估分数。 2.根据权利要求1所述的基于语音多任务学习的脑卒中康复评估辅助分析方法, 其特 征在于所述 步骤1的具体实现如下: 1‑1将原始语音信号截取成四秒的固定长度, 超过四秒的片段舍弃, 不够四秒的片段将 已有的片段复制补充到四秒的长度; 1‑2将语音信号通过一个高通滤波器: H(z)=1 ‑μz‑1, 增强信号中的高频部分; 之后采用 帧长为25毫秒, 帧移为10毫秒的方式对信号进行分帧操作; 然后将每一帧乘以汉明窗; 1‑3对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的短时幅度谱, 将短时幅 度谱取模平方并通过 滤波器数量 为64的梅尔滤波器组得到梅尔频谱图, 梅尔滤波器组: 梅尔频谱图: 最终4秒的音频 经过处理得到40 0*64像素的梅尔频谱; 1‑4对400*64像素的梅尔频谱按帧长为64像素, 帧移为30像素进行截取, 得到梅尔频谱 图的静态图像, 再计算其一阶差分和二阶差分, 将静态图像和一阶、 二阶差分叠加, 组成类 似于RGB三通道的图片; 最终一段4s的音 频经过截 取总共得到13个64*64像素的片段级的梅 尔频谱图。 3.根据权利要求1或2所述的基于语音多任务学习的脑卒中康复评估辅助分析方法, 其 特征在于所述 步骤2的具体实现如下: 2‑1将评估分数区间为85~ 100的样本设置为轻微类型, 区间75~84的样本设置为中等 类型, 区间6 5~74的样本设置为 严重类型, 区间6 0~64的样本设置为非常严重类型。权 利 要 求 书 1/3 页 2 CN 114141366 A 24.根据权利要求1所述的基于语音多任务学习的脑卒中康复评估辅助分析方法, 其特 征在于所述 步骤3的具体实现如下: 3‑1改进的Resnet50网络结构如下: 原用于ImageNet1000个类别分类的Resnet50网络 输出层共有1000个神经元, 将其修改为100个神经元; 之后再分别为两个任务添加各自的网 络输出层, 回归 任务的输出层为1个神经 元, 分类任务的输出层为 4个神经元; 3‑2采用多任务学习机制进行训练, 模型应用硬参数共享机制, 即两个任务输出层 之前 的网络层共享参数, 只有输出层对应各自的网络参数; 回归任务对应均方损失函数 MSELoss, 分类任务对应交叉熵损失函数CrossEntropyLoss, 因此所用的损失函数 TotalLoss为均方损失函数和交叉熵损失函数的加权叠加; 并利用迁移学习的方式, 通过加 载预训练Resnet5 0网络的权 重参数, 能有效加快网络的训练速度; xi和 分别代表回归任务对应的预测值和标签值, 和yij分别代表分类任务的预测值 和标签值, n表示每次训练一个batch的样本量, m表示辅助分类任务所对应的类别 数量; 其 中本发明所采用的α =1, β =0.5; 3‑3模型训练完后, 输入片段级梅尔频谱图, 将修改后Resnet50网络的倒数第二层的输 出作为特 征; 因为倒数第二层有10 0个神经元, 所以特 征维数为10 0维。 5.根据权利要求1所述的基于语音多任务学习的脑卒中康复评估辅助分析方法, 其特 征在于所述 步骤4的具体实现如下: 4‑1将得到的100维片段级特征按梅尔频谱图截取的时间顺序组成话语级特征, 因此每 个4s的语音片段 经过处理后得到13 *100维的话语级特 征; 4‑2采用三层LSTM网络对输入的话语级特征进行预测, 每层64个神经元, 使用dropout =0.5减少网络过拟合; 4‑3同样采用多任务学习机制进行训练, LSTM回归任务的输出层一个神经元, 分类任务 的输出层四个神经元, 模型应用硬参数共享机制, 两个任务的输出层之前 的网络层共享参 数, 只有输出层对应各自的网络参数; 所用的损失函数TotalLoss为均方损失函数和交叉熵 损失函数的加权 叠加; 权 利 要 求 书 2/3 页 3 CN 114141366 A 3

.PDF文档 专利 基于语音多任务学习的脑卒中康复评估辅助分析方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于语音多任务学习的脑卒中康复评估辅助分析方法 第 1 页 专利 基于语音多任务学习的脑卒中康复评估辅助分析方法 第 2 页 专利 基于语音多任务学习的脑卒中康复评估辅助分析方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 21:50:37上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。