专利 一种神经网络的训练方法、系统、设备以及介质

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111675585.3 (22)申请日 2021.12.31 (71)申请人苏州浪潮智能科技有限公司地址 215000 江苏省苏州市吴中经济开发区郭巷街道官浦路1号9幢 (72)发明人孙红岩　 (74)专利代理机构北京连和连知识产权代理有限公司 1 1278 代理人刘小峰　张涛 (51)Int.Cl. G06N 3/08(2006.01) (54)发明名称一种神经网络的训练方法、系统、设备以及介质 (57)摘要本发明公开了一种神经网络的训练方法，包括以下步骤：创建结构相同的第一神经网络和第二神经网络；每次对第一神经网络和第二神经网络训练时，随机将训练batch中的若干个图像输入到第一神经网络，并将剩余数据输入到第二神经网络中；根据第一神经网络和第二神经网络的逻辑回归层的输出计算损失值；根据损失值，利用反向传播更新第二神经网络中编码器和多层感知器的网络参数并利用第二神经网络中编码器和多层感知器的网络参数的均值更新第一神经网络中编码器和多层感知器的网络参数，以再次训练，或者结束训练并利用第二神经网络中的编码器和逻辑回归层进行推理。本发明还公开了一种系统、计算机设备以及可读存储介质。权利要求书2页说明书8页附图4页 CN 114330712 A 2022.04.12 CN 114330712 A 1.一种神经网络的训练方法，其特征在于，包括以下步骤：创建结构相同的第一神经网络和第二神经网络，其中所述第一神经网络和所述第二神经网络均包括编码器、多层感知器以及逻辑回归层；每次对所述第一神经网络和所述第二神经网络训练时，随机将训练batch中的若干个图像输入到第一神经网络，并将剩余数据输入到所述第二神经网络中；根据所述第一神经网络和所述第二神经网络的逻辑回归层的输出计算损失值；响应于所述损失值不符合预设要求，利用反向传播更新所述第二神经网络中编码器和多层感知器的网络参数并利用所述第二神经网络中编码器和多层感知器的网络参数的均值更新所述第一神经网络中编码器和多层感知器的网络参数，以再次训练；响应于所述损失值达到预设值，结束训练并利用所述第二神经网络中的编码器和逻辑回归层进行推理。 2.如权利要求1所述的方法，其特征在于，还包括：创建训练数据集并将训练数据集分为多个batc h；对每一个batc h中的若干个图像数据进行预处理。 3.如权利要求2所述的方法，其特征在于，对每一个batch中的若干个数据进行预处理，进一步包括：对若干个图像数据进行随机裁剪并resize、进行随机水平翻转、进行对比度和饱和度的修改、进行高斯模糊以及进行正则化中一个或多个处理。 4.如权利要求1所述的方法，其特征在于，利用所述第二神经网络中编码器和多层感知器的网络参数的均值更新所述第一神经网络中编码器和多层感知器的网络参数，进一步包括通过下式更新所述第一神经网络中的编码器和多层感知器的网络参数： gr,t＝mtgr,t‑1+(1‑mt)gl 其中，矩阵gr,t为第一神经网络的编码器或多层感知器当前次训练时的网络参数；矩阵 gr,t‑1为第一神经网络的编码器或多层感知器前一次训练时的网络参数；矩阵gl为第二神经网络对应的编码器或多层感知器当前次训练时的网络参数； mt和mt‑1分别为当前次训练时的权重和前一次训练时的权重，初始值为预设值； Gl,ii为对角矩阵，其中元素(i， i)为矩阵gl 对应的第i行的梯度平方和。 5.如权利要求1所述的方法，其特征在于，根据所述第一神经网络和所述第二神经网络的逻辑回归层的输出计算损失值，进一步包括：对所述第一神经网络的逻辑回归层的输出进行Qz函数变换后与所述第二神经网络的逻辑回归层的输出计算损失值。 6.一种神经网络的训练系统，其特征在于，包括：创建模块，配置为创建结构相同的第一神经网络和第二神经网络，其中所述第一神经网络和所述第二神经网络均包括编码器、多层感知器以及逻辑回归层；输入模块，配置为每次对所述第一神经网络和所述第二神经网络训练时，随机将训练 batch中的若干个图像输入到第一神经网络，并将剩余数据输入到所述第二神经网络中；权　利　要　求　书 1/2 页 2 CN 114330712 A 2计算模块，配置为根据所述第一神经网络和所述第二神经网络的逻辑回归层的输出计算损失值；更新模块，配置为利用反向传播更新所述第二神经网络中编码器和多层感知器的网络参数并利用所述第二神经网络中编码器和多层感知器的网络参数的均值更新所述第一神经网络中编码器和多层感知器的网络参数；推理模块，配置为响应于所述损失值达到预设值，结束训练并利用所述第二神经网络中的编码器和逻辑回归层进行推理。 7.如权利要求6所述的系统，其特征在于，还包括训练集模块，配置为：创建训练数据集并将训练数据集分为多个batc h；对每一个batc h中的若干个图像数据进行预处理。 8.如权利要求6所述的系统，其特征在于，训练集模块还配置为：对若干个图像数据进行随机裁剪并resize、进行随机水平翻转、进行对比度和饱和度的修改、进行高斯模糊以及进行正则化中一个或多个处理。 9.一种计算机设备，包括：至少一个处理器；以及存储器，所述存储器存储有可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时执行如权利要求1 ‑5任意一项所述的方法的步骤。 10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时执行如权利要求1 ‑5任意一项所述的方法的步骤。权　利　要　求　书 2/2 页 3 CN 114330712 A 3

专利 一种神经网络的训练方法、系统、设备以及介质

专利一种神经网络的训练方法、系统、设备以及介质