(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111680499.1
(22)申请日 2021.12.3 0
(71)申请人 广西慧云信息技 术有限公司
地址 530007 广西壮 族自治区南宁市高新
区创新路23号9号楼三层
(72)发明人 韦光亮 苏家仪 王筱东 韦潇依
方明朗 莫振东
(74)专利代理 机构 南宁东之智专利代理有限公
司 45128
专利代理师 张丽媛
(51)Int.Cl.
G06T 7/00(2017.01)
G06T 7/11(2017.01)
G06V 10/774(2022.01)
G06V 10/82(2022.01)G06V 10/80(2022.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于视觉Tran sformer的刨花板表面缺
陷检测方法
(57)摘要
本发明公开一种基于视觉Transformer的刨
花板表面缺陷检测方法, 包括以下步骤: (1) 数据
集制作; (2) 构建一个基于视觉Tran sformer的语
义分割网络; 所述语义分割网络由输入模块、 编
码器、 瓶颈模块、 解码器、 输出模块、 跳跃连接构
成; (3) 构建损失函数; (4) 模型训练: 将训练集输
入至步骤(2)中的语义 分割网络, 采用步骤(3)中
的损失函数进行监督训练, 训练过程中, 将验证
集输入至训练好的中间模型进行验证, 获得训练
好的模型参数; (5) 模型推理。 本发明解决刨花板
表面缺陷尺度范围跨度较大的问题, 降低漏检率
与误检率, 提高缺陷区域分割的精确率。
权利要求书2页 说明书6页 附图2页
CN 114529507 A
2022.05.24
CN 114529507 A
1.一种基于视觉Transformer的刨花板表面缺陷检测方法, 其特征在于: 包括以下步
骤:
(1)数据集制作: 收集海量刨花板表面缺陷的图片, 设定缺陷类别、 初始分辨率和初始
维度; 将所有图片按一定的比例划分训练集、 验证集与测试集; 将训练集和验证集的图片 裁
剪成若干个分块图片, 每个分块图片的分辨率和维度都为初始分辨率和初始维度; 对分块
图片依据缺陷类别进行语义分割标注;
(2)预设的临界维度, 构建一个基于视觉Transformer的语义分割网络: 所述语义分割
网络由输入 模块、 编码器、 瓶颈模块、 解码器、 输出模块、 跳跃 连接构成;
所述输入模块, 用于将输入图片进行[ ‑0.5,0.5]归一化, 并按4x4网格的方式进行图片
分块获得输入处 理图片; 所述输入处 理图片的维度为目标维度;
所述编码器, 由线性变换层组件、 编码Swin Transformer模块组件与分块合并组件构
成, 用于逐层特 征编码;
所述线性变换层组件用于将输入处理图片进行特征升维操作获得特征数据; 所述编码
Swin Transformer模块组件有若干个接收分辨率和维度都不同的编码Swin Transformer
模块, 每个编码Swin Transformer模块用于对接收指定维度的特征数据进行自注 意力表征
学习, 并进行低层细节与高层语义跨层融合; 所述分块合并组件有若干个接 收维度不同的
分块合并, 每个分块合并用于将接收编码Swin Transformer模块组件指定维度的特征数据
后将特征数据按2x2邻域进行连接, 分辨率2倍下采样, 并进行2倍维度的升维, 得到特征数
据并对比临界维度; 若特征数据未达到临界维度则继续输入相应的编码Swin Transformer
模块, 直至得到的特 征数据达到临界维度后输入至瓶颈模块;
所述瓶颈模块, 用于深度 特征的自注意力表征学习, 加速训练收敛速度; 所述瓶颈模块
的输入为编码器模块输出 的特征数据, 输出为自注意力表征学习后的特征数据至解码器,
输入的特 征数据与输出的特 征数据的分辨 率、 维度保持不变;
所述解码器, 由分块扩展组件、 解码Swin Transformer模块组件构成, 用于逐层特征解
码; 所述分块扩展组件有若干个接 收维度不同的分块拓展, 每个分块拓展将接 收的特征数
据进行2倍降维得到, 再进行特征重分配得到2倍上采样的特征数据, 将特征数据并对比预
设的目标维度; 若特征数据未达到目标维度则继续输入至相应的解码Swin Transformer模
块, 直至得到的特征数据达到目标维度后输入至输出模块; 所述解码Swin Transformer模
块包括若干个解码Swin Transformer模块, 且解码Swin Transformer模块接收分辨率和维
度与编码Swin Transformer模块相对应; 所述解码Swin Transformer模块用于将分块扩展
输出的特征数据进行自注意力表征学习, 通过跳跃连接接收解码器模块的Swin
Transformer模块, 进行低层 细节与高层语义 跨层融合;
所述输出模块, 用于对解码器模块最终分块扩展输出的特征数据进行线性映射后得到
输出结果;
所述编码器 的Swin Transformer模块组件通过跳跃连接输入至解码器模块中分辨率
和维度都相同的Sw in Transformer模块组件;
(3)构建损失函数: 采用Dice Loss作为损失函数;
(4)模型训练: 将训练集输入至步骤(2)中的语义分割网络, 采用步骤(3)中的损失函数
进行监督训练, 训练过程中, 将验证集输入至训练好的中间模 型进行验证, 获得训练好的模权 利 要 求 书 1/2 页
2
CN 114529507 A
2型参数;
(5)模型推理: 将步骤(4)中训练好的模型参数加载至步骤(2)的语义分割网络, 并将步
骤(1)中测试集的刨花板表面缺陷的图片进行滑窗裁剪成分块图片, 依 次将分块图片输入
至语义分割网络进行推理, 得到每个分块图片的输出结果, 最后将每个分块图片的输出结
果合并成整块结果。
2.根据权利要求1所述的一种基于视觉Transformer的刨花板表面缺 陷检测方法, 其特
征在于: 所述步骤(1)中, 设初始分辨率为1024x1024, 初始维度为1, 将图片裁剪成若干个 分
块图片的具体方法为: 通过滑窗的方式将图片裁 剪成若干个1024x1024x1的分块图片。
3.根据权利要求1所述的一种基于视觉Transformer的刨花板表面缺 陷检测方法, 其特
征在于: 所述缺陷类别包含大刨花、 划痕、 砂穿、 粉尘斑、 鼓泡、 胶斑、 裂缝、 乌云斑、 油污、 缺
边、 缺角、 凹坑。
4.根据权利要求1所述的一种基于视觉Transformer的刨花板表面缺 陷检测方法, 其特
征在于: 所述 步骤(1)中分块图片划分训练集、 验证集与测试集的比例为0.8 :0.1:0.1。
5.根据权利要求1所述的一种基于视觉Transformer的刨花板表面缺 陷检测方法, 其特
征在于: 所述编码Swin Transformer模块分别为Swin Transformer模块1、 Swin
Transformer模块2、 Swin Transformer模块3、 Swin Transformer模块7, 且分别对应解码
Swin Transformer模块为Swin Transformer模块10, Swin Transformer模块9和Swin
Transformer模块8和Sw in Transformer模块7。
6.根据权利要求1所述的一种基于视觉Transformer的刨花板表面缺 陷检测方法, 其特
征在于: 所述临界维度为512。
7.根据权利要求1所述的一种基于视觉Transformer的刨花板表面缺 陷检测方法, 其特
征在于: 所述瓶颈模块由Swin Transformer模块5和Swin Transformer模块6串联组成; 所
述瓶颈模块输 出为经过Swin Transformer模块5、 Swin Transformer模块6进行自注意力表
征学习后的特 征数据。
8.根据权利要求1所述的一种基于视觉Transformer的刨花板表面缺 陷检测方法, 其特
征在于: 所述Dice Loss为:
其中, x表示输入样本, fi(x)表示第i个类别的预测结果, yi表示第i个类别对应的真实
标签。
9.根据权利要求1所述的一种基于视觉Transformer的刨花板表面缺 陷检测方法, 其特
征在于: 所述步骤(4)中, 采用步骤(3)中的损失函数进行监督训练的具体方法为使用学习
率为0.001的AdamW优化器进行训练, 并采用步骤(3)中的损失函数进行监 督训练。权 利 要 求 书 2/2 页
3
CN 114529507 A
3
专利 一种基于视觉Transformer的刨花板表面缺陷检测方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 21:47:50上传分享