团体标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111666324.5 (22)申请日 2021.12.3 0 (71)申请人 天翼电子商务有限公司 地址 100037 北京市西城区阜成门外大街 31号4层429D (72)发明人 孙芃  (51)Int.Cl. G06N 3/08(2006.01) G06N 3/04(2006.01) G06N 5/04(2006.01) (54)发明名称 一种多老师监督下的多分支学生网络的知 识蒸馏方法 (57)摘要 本发明公开了一种多老师监督下的多分支 学生网络的知识蒸馏方法, 包括以下步骤: 训练 多个参数量存在一定差异的老师模 型, 不同的老 师模型对应不同的权重比例; 针对 学生模型不同 的分支结构 采用不同的监督信息; 在训练过程的 第一阶段, 按照老师模型参数量大小逐渐降低参 数量最多的老师模型对学生网络损失的比例, 使 得参数量大的老师模型逐渐退出学生模型的训 练; 在训练过程的第二阶段, 仅使用学生网络的 最深层分类器监督分支分类器的监督; 在训练过 程的第三阶段, 仅使用交叉熵对多分支学生网络 进行训练。 本发 明能够充分吸收多个 老师网络模 型知识, 能够实现更高的准确率。 权利要求书1页 说明书4页 附图2页 CN 114548397 A 2022.05.27 CN 114548397 A 1.一种多老师监 督下的多分支学生网络的知识蒸馏方法, 其特 征在于, 包括以下步骤: (S1), 训练多个参数量存在一定差异的老师模型; 老师模型在数据集上面进行训练具 有良好的泛化能力; 但是老师模型参数量较大, 推理时间过久, 无法线上使用; 学生模型线 上推理时间短, 但是精度较低; 所以需要提高学生模型的准确率 替代老师模型; (S2), 第一阶段, 多个参数量大小存在明显差异的老师模型加载训练好的权重, 冻结权 重, 假设4个老师模型; (S3), 假设多分支学生模型有3个分支出口, 和一个最终的出口, 多分支学生模型随机 初始化; (S4), 针对学生网络不同的分支结构采用不同的监督信息; 常用的softmax公式如公式 (1), 软化 概率分布如公式(2)所示; 加入温度系数T是为了软化分布, 提供 更多的监 督信息; (S5), 第一阶段损失函数由三部分组成, 标签和分类预测概率之间的交叉熵, 多分支结 构之间构成的自监督知识蒸馏损失, 老师网络与多分支学生网络结构构成的知识蒸馏损 失; βi是不同的深层分类器与当前 分类器的蒸馏损失权重; Qi是不同的老师网络和学生网络 某个分支分类器之间的知识蒸馏损失权重; Losshard是交叉熵损失, Q和β 是整体的loss比 例, (S6), 随着训练epoch的迭代, 学生网络和 老师网络之间的能力差异变得更加显著, 按 照老师模型参数量大小逐渐降低参数量最多的老师模型对学生网络损失的比例, 防止带偏 学生模型; (S7), 第二阶段从知识蒸馏到自蒸馏阶段; 随着训练epoch迭代, 仅使用学生网络的最 深层分类 器监督分支分类 器的监督; Lossall如图所示; (S8), 第三阶段是仅仅使用交叉熵对多分支学生网络进行训练, 这是为了促进模型的 进一步收敛。权 利 要 求 书 1/1 页 2 CN 114548397 A 2一种多老师监督下的多分支学生网 络的知识 蒸馏方法 技术领域 [0001]本发明涉及的是模型压缩技术领域, 具体涉及一种多老师监督下的多分支学生网 络的知识蒸馏方法。 背景技术 [0002]通常我们训练出的神经网络模型都比较大, 将大模型直接部署到线上的时候计算 时长较长, 将这些模 型部署到例如手机、 机器人等移动设备上时比较困难。 模型压缩可以将 大模型压缩成小模型, 压缩后的小模型也能得到和大模型接近甚至更好的性能。 模型压缩 主要包括几种模型压缩方法: 网络 裁剪, 知识蒸馏, 参数量 化和模型 结构设计。 [0003]一般的知识蒸馏方法是先在训练集上从零训练一个大模型作为老师模型, 然后使 用一个老师模型监 督一个学生模型在训练集上进行训练。 [0004]我们的方法是训练多个不同大小的大模型作为老师模型, 多个老师模型在输出层 维度上参与监督学生模型训练。 使用多个不同大小老师模型 的目的有两点, 1.减少单个老 师模型带偏学生网络的情况, 2.多个老师网络的监督提供更加丰富的信息, 提高学生网络 多个分支结构的准确 率, 在训练过程中逐步降低大 的老师模型监督信息的权重比例, 随着 训练不断进行, 老师模型和学生模型之 间存在的能力差距会逐渐影响多分支学生模型的收 敛, 通过降低参数量较大 的老师网络对学生网络监督的损失比例, 从而促进多分支学生网 络进一步收敛提高多分支模型的准确率, 通过小模型替代大模型从而实现降低模型大小实 现模型压缩的目的。 发明内容 [0005]针对现有技术上存在的不足, 本发明目的是在于提供一种多老师监督下的多分支 学生网络的知识蒸馏方法, 充分吸 收多个老师网络模型知识, 能够实现更高的准确率。 [0006]为了实现上述目的, 本发明是通过如下的技术方案来实现: 一种多老师监督下的 多分支学生网络的知识蒸馏方法, 包括以下步骤: [0007]S1, 训练多个参数量存在一定差异的老师模型。 老师模型在数据集上面进行训练 具有良好的泛化能力。 但是老师模型参数量较大, 推理时间过久, 无法线上使用。 学生模型 线上推理时间短, 但是精度较低。 所以需要提高学生模型的准确率 替代老师模型。 [0008]S2, 第一阶段, 多个参数量大小存在明显差异的老师模型加载训练好的权重, 冻结 权重, 假设4个老师模型。 [0009]S3, 假设多分支学生模型有3个分支出口, 和一个最终的出口, 多分支学生模型随 机初始化。 [0010]S4, 针对学生网络不同的分支结构采用不同的监督信息。 常用的softm ax公式如公 式(1), 软化概率分布如公式(2)所示。 加入温度系数T是为了软化分布, 提供更多的监督信 息。说 明 书 1/4 页 3 CN 114548397 A 3

.PDF文档 专利 一种多老师监督下的多分支学生网络的知识蒸馏方法

文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种多老师监督下的多分支学生网络的知识蒸馏方法 第 1 页 专利 一种多老师监督下的多分支学生网络的知识蒸馏方法 第 2 页 专利 一种多老师监督下的多分支学生网络的知识蒸馏方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 21:48:11上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。