专利 一种基于视觉Transformer的刨花板表面缺陷检测方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111680499.1 (22)申请日 2021.12.3 0 (71)申请人广西慧云信息技术有限公司地址 530007 广西壮族自治区南宁市高新区创新路23号9号楼三层 (72)发明人韦光亮　苏家仪　王筱东　韦潇依　方明朗　莫振东　 (74)专利代理机构南宁东之智专利代理有限公司 45128 专利代理师张丽媛 (51)Int.Cl. G06T 7/00(2017.01) G06T 7/11(2017.01) G06V 10/774(2022.01) G06V 10/82(2022.01)G06V 10/80(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于视觉Tran sformer的刨花板表面缺陷检测方法 (57)摘要本发明公开一种基于视觉Transformer的刨花板表面缺陷检测方法，包括以下步骤：（1）数据集制作；（2）构建一个基于视觉Tran sformer的语义分割网络；所述语义分割网络由输入模块、编码器、瓶颈模块、解码器、输出模块、跳跃连接构成；（3）构建损失函数；（4）模型训练：将训练集输入至步骤(2)中的语义分割网络，采用步骤(3)中的损失函数进行监督训练，训练过程中，将验证集输入至训练好的中间模型进行验证，获得训练好的模型参数；（5）模型推理。本发明解决刨花板表面缺陷尺度范围跨度较大的问题，降低漏检率与误检率，提高缺陷区域分割的精确率。权利要求书2页说明书6页附图2页 CN 114529507 A 2022.05.24 CN 114529507 A 1.一种基于视觉Transformer的刨花板表面缺陷检测方法，其特征在于：包括以下步骤： (1)数据集制作：收集海量刨花板表面缺陷的图片，设定缺陷类别、初始分辨率和初始维度；将所有图片按一定的比例划分训练集、验证集与测试集；将训练集和验证集的图片裁剪成若干个分块图片，每个分块图片的分辨率和维度都为初始分辨率和初始维度；对分块图片依据缺陷类别进行语义分割标注； (2)预设的临界维度，构建一个基于视觉Transformer的语义分割网络：所述语义分割网络由输入模块、编码器、瓶颈模块、解码器、输出模块、跳跃连接构成；所述输入模块，用于将输入图片进行[ ‑0.5,0.5]归一化，并按4x4网格的方式进行图片分块获得输入处理图片；所述输入处理图片的维度为目标维度；所述编码器，由线性变换层组件、编码Swin Transformer模块组件与分块合并组件构成，用于逐层特征编码；所述线性变换层组件用于将输入处理图片进行特征升维操作获得特征数据；所述编码 Swin Transformer模块组件有若干个接收分辨率和维度都不同的编码Swin Transformer 模块，每个编码Swin Transformer模块用于对接收指定维度的特征数据进行自注意力表征学习，并进行低层细节与高层语义跨层融合；所述分块合并组件有若干个接收维度不同的分块合并，每个分块合并用于将接收编码Swin Transformer模块组件指定维度的特征数据后将特征数据按2x2邻域进行连接，分辨率2倍下采样，并进行2倍维度的升维，得到特征数据并对比临界维度；若特征数据未达到临界维度则继续输入相应的编码Swin Transformer 模块，直至得到的特征数据达到临界维度后输入至瓶颈模块；所述瓶颈模块，用于深度特征的自注意力表征学习，加速训练收敛速度；所述瓶颈模块的输入为编码器模块输出的特征数据，输出为自注意力表征学习后的特征数据至解码器，输入的特征数据与输出的特征数据的分辨率、维度保持不变；所述解码器，由分块扩展组件、解码Swin Transformer模块组件构成，用于逐层特征解码；所述分块扩展组件有若干个接收维度不同的分块拓展，每个分块拓展将接收的特征数据进行2倍降维得到，再进行特征重分配得到2倍上采样的特征数据，将特征数据并对比预设的目标维度；若特征数据未达到目标维度则继续输入至相应的解码Swin Transformer模块，直至得到的特征数据达到目标维度后输入至输出模块；所述解码Swin Transformer模块包括若干个解码Swin Transformer模块，且解码Swin Transformer模块接收分辨率和维度与编码Swin Transformer模块相对应；所述解码Swin Transformer模块用于将分块扩展输出的特征数据进行自注意力表征学习，通过跳跃连接接收解码器模块的Swin Transformer模块，进行低层细节与高层语义跨层融合；所述输出模块，用于对解码器模块最终分块扩展输出的特征数据进行线性映射后得到输出结果；所述编码器的Swin Transformer模块组件通过跳跃连接输入至解码器模块中分辨率和维度都相同的Sw in Transformer模块组件； (3)构建损失函数：采用Dice Loss作为损失函数； (4)模型训练：将训练集输入至步骤(2)中的语义分割网络，采用步骤(3)中的损失函数进行监督训练，训练过程中，将验证集输入至训练好的中间模型进行验证，获得训练好的模权　利　要　求　书 1/2 页 2 CN 114529507 A 2型参数； (5)模型推理：将步骤(4)中训练好的模型参数加载至步骤(2)的语义分割网络，并将步骤(1)中测试集的刨花板表面缺陷的图片进行滑窗裁剪成分块图片，依次将分块图片输入至语义分割网络进行推理，得到每个分块图片的输出结果，最后将每个分块图片的输出结果合并成整块结果。 2.根据权利要求1所述的一种基于视觉Transformer的刨花板表面缺陷检测方法，其特征在于：所述步骤(1)中，设初始分辨率为1024x1024，初始维度为1，将图片裁剪成若干个分块图片的具体方法为：通过滑窗的方式将图片裁剪成若干个1024x1024x1的分块图片。 3.根据权利要求1所述的一种基于视觉Transformer的刨花板表面缺陷检测方法，其特征在于：所述缺陷类别包含大刨花、划痕、砂穿、粉尘斑、鼓泡、胶斑、裂缝、乌云斑、油污、缺边、缺角、凹坑。 4.根据权利要求1所述的一种基于视觉Transformer的刨花板表面缺陷检测方法，其特征在于：所述步骤(1)中分块图片划分训练集、验证集与测试集的比例为0.8 :0.1:0.1。 5.根据权利要求1所述的一种基于视觉Transformer的刨花板表面缺陷检测方法，其特征在于：所述编码Swin Transformer模块分别为Swin Transformer模块1、 Swin Transformer模块2、 Swin Transformer模块3、 Swin Transformer模块7，且分别对应解码 Swin Transformer模块为Swin Transformer模块10， Swin Transformer模块9和Swin Transformer模块8和Sw in Transformer模块7。 6.根据权利要求1所述的一种基于视觉Transformer的刨花板表面缺陷检测方法，其特征在于：所述临界维度为512。 7.根据权利要求1所述的一种基于视觉Transformer的刨花板表面缺陷检测方法，其特征在于：所述瓶颈模块由Swin Transformer模块5和Swin Transformer模块6串联组成；所述瓶颈模块输出为经过Swin Transformer模块5、 Swin Transformer模块6进行自注意力表征学习后的特征数据。 8.根据权利要求1所述的一种基于视觉Transformer的刨花板表面缺陷检测方法，其特征在于：所述Dice Loss为: 其中， x表示输入样本， fi(x)表示第i个类别的预测结果， yi表示第i个类别对应的真实标签。 9.根据权利要求1所述的一种基于视觉Transformer的刨花板表面缺陷检测方法，其特征在于：所述步骤(4)中，采用步骤(3)中的损失函数进行监督训练的具体方法为使用学习率为0.001的AdamW优化器进行训练，并采用步骤(3)中的损失函数进行监督训练。权　利　要　求　书 2/2 页 3 CN 114529507 A 3

专利 一种基于视觉Transformer的刨花板表面缺陷检测方法

专利一种基于视觉Transformer的刨花板表面缺陷检测方法