(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111675585.3
(22)申请日 2021.12.31
(71)申请人 苏州浪潮智能科技有限公司
地址 215000 江苏省苏州市吴中经济开发
区郭巷街道官浦路1号9幢
(72)发明人 孙红岩
(74)专利代理 机构 北京连和连知识产权代理有
限公司 1 1278
代理人 刘小峰 张涛
(51)Int.Cl.
G06N 3/08(2006.01)
(54)发明名称
一种神经网络的训练方法、 系统、 设备以及
介质
(57)摘要
本发明公开了一种神经网络的训练方法, 包
括以下步骤: 创建结构相同的第一神经网络和第
二神经网络; 每次对第一神经网络和第二神经网
络训练时, 随机将训练batch中的若干个 图像输
入到第一神经网络, 并将剩余数据输入到第二神
经网络中; 根据第一神经网络和第二神经网络的
逻辑回归层的输出计算损失值; 根据损失值, 利
用反向传播更新第二神经网络中编码器和多层
感知器的网络参数并利用第二神经网络中编码
器和多层感知器的网络参数的均值更新第一神
经网络中编码器和多层感知器的网络参数, 以再
次训练, 或者结束训练并利用第二神经网络中的
编码器和逻辑回归层进行推理。 本发 明还公开了
一种系统、 计算机设备以及可读存 储介质。
权利要求书2页 说明书8页 附图4页
CN 114330712 A
2022.04.12
CN 114330712 A
1.一种神经网络的训练方法, 其特 征在于, 包括以下步骤:
创建结构相同的第 一神经网络和第 二神经网络, 其中所述第 一神经网络和所述第 二神
经网络均包括编码器、 多层感知器以及逻辑回归层;
每次对所述第一神经网络和所述第二神经网络训练时, 随机将训练batch中的若干个
图像输入到第一神经网络, 并将剩余数据输入到所述第二神经网络中;
根据所述第一神经网络和所述第二神经网络的逻辑回归层的输出计算损失值;
响应于所述损失值不符合预设要求, 利用反 向传播更新所述第 二神经网络 中编码器和
多层感知器的网络参数并利用所述第二神经网络中编码器和多层感知器的网络参数的均
值更新所述第一神经网络中编码器和多层感知器的网络参数, 以再次训练;
响应于所述损失值达到预设值, 结束训练并利用所述第 二神经网络 中的编码器和逻辑
回归层进行推理。
2.如权利要求1所述的方法, 其特 征在于, 还 包括:
创建训练数据集并将训练数据集分为多个batc h;
对每一个batc h中的若干个图像数据进行 预处理。
3.如权利 要求2所述的方法, 其特征在于, 对每一个batch中的若干个数据进行预处理,
进一步包括:
对若干个图像数据进行随机裁剪并resize、 进行随机水平翻转、 进行对比度和饱和度
的修改、 进行高斯模糊以及进行正则化中一个或多个处 理。
4.如权利要求1所述的方法, 其特征在于, 利用所述第 二神经网络 中编码器和多层感知
器的网络参数的均值更新所述第一神经网络中编码器和多层感知器的网络参数, 进一步包
括通过下式更新所述第一神经网络中的编码器和多层感知器的网络参数:
gr,t=mtgr,t‑1+(1‑mt)gl
其中, 矩阵gr,t为第一神经网络的编码器或多层感知器当前次训练时的网络参数; 矩阵
gr,t‑1为第一神经网络的编码器或多层感知器前一次训练 时的网络参数; 矩阵gl为第二神经
网络对应的编码器或多层感知器当前次训练时的网络参数; mt和mt‑1分别为当前次训练时
的权重和前一次训练时的权重, 初始值为预 设值; Gl,ii为对角矩阵, 其中元素(i, i)为矩阵gl
对应的第i行的梯度平方和。
5.如权利要求1所述的方法, 其特征在于, 根据所述第 一神经网络和所述第 二神经网络
的逻辑回归层的输出计算损失值, 进一 步包括:
对所述第一神经网络的逻辑回归层的输出进行Qz函数变换后与所述第二神经网络的
逻辑回归层的输出计算损失值。
6.一种神经网络的训练系统, 其特 征在于, 包括:
创建模块, 配置为创建结构相同的第一神经网络和第二神经网络, 其中所述第一神经
网络和所述第二神经网络均包括编码器、 多层感知器以及逻辑回归层;
输入模块, 配置为每次对所述第一神经网络和所述第二神经网络训练时, 随机将训练
batch中的若干个图像输入到第一神经网络, 并将剩余数据输入到所述第二神经网络中;权 利 要 求 书 1/2 页
2
CN 114330712 A
2计算模块, 配置为根据 所述第一神经网络和所述第 二神经网络的逻辑 回归层的输出计
算损失值;
更新模块, 配置为利用反 向传播更新所述第 二神经网络中编码器和多层感知器的网络
参数并利用所述第二神经网络中编码器和多层感知器的网络参数的均值更新所述第一神
经网络中编码器和多层感知器的网络参数;
推理模块, 配置为响应于所述损 失值达到预设值, 结束训练并利用所述第二神经网络
中的编码器和逻辑回归层进行推理。
7.如权利要求6所述的系统, 其特 征在于, 还 包括训练集模块, 配置为:
创建训练数据集并将训练数据集分为多个batc h;
对每一个batc h中的若干个图像数据进行 预处理。
8.如权利要求6所述的系统, 其特 征在于, 训练集模块还配置为:
对若干个图像数据进行随机裁剪并resize、 进行随机水平翻转、 进行对比度和饱和度
的修改、 进行高斯模糊以及进行正则化中一个或多个处 理。
9.一种计算机设备, 包括:
至少一个处 理器; 以及
存储器, 所述存储器存储有可在所述处理器上运行的计算机程序, 其特征在于, 所述处
理器执行所述程序时执 行如权利要求1 ‑5任意一项所述的方法的步骤。
10.一种计算机可读存储介质, 所述计算机可读存储介质存储有计算机程序, 其特征在
于, 所述计算机程序被处 理器执行时执行如权利要求1 ‑5任意一项所述的方法的步骤。权 利 要 求 书 2/2 页
3
CN 114330712 A
3
专利 一种神经网络的训练方法、系统、设备以及介质
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 21:48:49上传分享