专利 一种基于选择性特征融合金字塔的场景文本检测方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111667119.0 (22)申请日 2021.12.31 (71)申请人福州大学地址 350108 福建省福州市闽侯县福州大学城乌龙江北大道2号福州大学 (72)发明人陈平平　陈宏辉　游索　 (74)专利代理机构福州元创专利商标代理有限公司 35100 代理人蔡学俊　薛金才 (51)Int.Cl. G06V 20/62(2022.01) G06V 30/146(2022.01) G06V 30/148(2022.01) G06V 30/18(2022.01) G06V 30/19(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) G06K 9/62(2022.01) (54)发明名称一种基于选择性特征融合金字塔的场景文本检测方法 (57)摘要一种基于选择性特征融合金字塔的场景文本检测方法，包括基于选择性特征融合金字塔的场景文本检测网络，场景文本的检测包括以下步骤：步骤S1：获取不同场景中的包含文本的图像生成数据集，其中包含任意形状文本；步骤S2：对数据集进行处理，得到用于训练数据集A与测试数据集B；步骤S3：构建用于特征提取的深度神经网络；应用本方案可实现有效检测自然场景中的长直，多方向文本，也可以有效检测自然场景下的任意形状文本。权利要求书2页说明书6页附图3页 CN 114332841 A 2022.04.12 CN 114332841 A 1.一种基于选择性特征融合金字塔的场景文本检测方法，包括基于选择性特征融合金字塔的场景文本检测网络，其特征在于：场景文本的检测包括以下步骤：步骤S1：获取不同场景中的包含文本的图像生成数据集，其中包含任意形状文本；步骤S2：对数据集进行处理，得到用于训练数据集A与测试数据集B；步骤S3：构建用于特征提取的深度神经网络；步骤S4：训练阶段将训练数据集A送入深度神经网络中训练以及在测试阶段将测试数据集B送入深度神经网络中测试从而分别获得五种尺度的特征层；步骤S5：构造选择性特征融合金字塔；步骤S6：训练阶段将训练数据集A所获得的五种尺度特征层送入选择性特征融合金字塔训练以及在测试阶段将测试数据集B所获得的五种尺度特征层送入选择性特征融合金字塔测试从而获得输出特征层；步骤S7：训练阶段将输出特征层送入多卷积分割头训练输出文本分割图以及在测试阶段将输出特征层送入多卷积分割头输出文本分割图；步骤S8：文本分割图生成候选框获得文本检测结果。 2.根据权利要求1所述的一种基于选择性特征融合金字塔的场景文本检测方法，其特征在于：步骤S1所采用的数据集为CTW1500、 Totaltext、 MSRA ‑TD500、 ICDAR2015四个数据集。 3.根据权利要求1所述的一种基于选择性特征融合金字塔的场景文本检测方法，其特征在于：步骤S2中数据处理部分，主要对训练数据集A进行数据增强，包括旋转，放缩，随机剪裁镜像。 4.根据权利要求1所述的一种基于选择性特征融合金字塔的场景文本检测方法，其特征在于：步骤S 3构建用于特征提取的深度神经网络，具体采用VGG16作为用于特征提取的深度神经网络；截断了模型的最后三层全连接层，得到一个全卷积网络，选取vgg16中5个阶段的特征层，分别为(1/2,1/4,1/8,1/16,1/ 32)尺度特征层作为本阶段的输出。 5.根据权利要求1所述的一种基于选择性特征融合金字塔的场景文本检测方法，其特征在于：步骤S5构建选择性特征融合金字塔，将其分为三个阶段，具体包括以下步骤：步骤S51：第一阶段用于一次特征筛选，通过三个二维权重对五种不同尺度的特征层进行第一轮特征筛选；二维权重计算公式如下所示：其中wi是二维权重， i＝0,1,2,3； fx和fy代表四组相邻的特征层组； convn×n是一个卷积核大小为n ×n深度可分离卷积； Hj是第一轮筛选得到的特征层， j＝1,2, 3；步骤S52：第二阶段用于二次特征筛选，通过三组三维权重和一组二维权重对一次特征筛选结果和五种不同尺度特征层进行第二轮特征筛选；三维权重计算公式如下所示：权　利　要　求　书 1/2 页 2 CN 114332841 A 2其中是三维权重， i＝0,1,2,3； fq， fp， fz代表四组相邻的特征层组； Fk是第二轮筛选后的特征层， k＝1,2,3,4,5；步骤S53：第三阶段构建金字塔特征融合结构，将二轮筛选后的特征层Fk上采样之后 concat在一起得到最终的特征层Ffinal。 6.根据权利要求1所述的一种基于选择性特征融合金字塔的场景文本检测方法，其特征在于：步骤S6训练阶段将训练数据集A送入深度神经网络中训练以及在测试阶段将测试数据集B送入深度神经网络中测试从而分别获得五种尺度的特征层，步骤S4中深度神经网络产生的5种尺度的特征层被送入步骤S5所建立的选择性特征融合金字塔中获得最终的输出特征层Ffinal；步骤S5的前两个阶段为可循环阶段。 7.根据权利要求1所述的一种基于选择性特征融合金字塔的场景文本检测方法，其特征在于：步骤S7训练阶段将输出特征层送入多卷积分割头训练输出文本分割图以及在测试阶段将输出特征层送入多卷积分割头输出文本分割图，文本分割图包括文本区域分割图和文本中心区域分割图两部分；步骤S6 生成的输出特征层Ffinal被送入多卷积分割头中进行降维，获得最终文本分割图；多卷积分割头由conv3×3，正则化BN层，激活函数ReLU， conv1×1， conv1×1构成；具体包括以下步骤：步骤S71：步骤S6生成的输出特征层Ffinal经过conv3×3，正则化BN层，激活函数ReLU， conv1×1得到维度为32的共享特征层Fs， Fs∈Rh×w×32，其中R表示实数， h为高度， w 为宽度；步骤S72：将共享特征层Fs经过conv1×1得到最终分割图Fc， Fc∈Rh×w×4，其中两个通道被用于文本区域分割图分类，两个通道被用于文本中心区域分割图分类；步骤S73：训练阶段，使用交叉熵损失构建用于监督文本分割图的损失函数，公式如下所示：其中H(p,q)是真实值p和预测值q之间的交叉熵函数， pi是第i个真实值， qi是第i个预测值；并且，对于文本区域分割图，我们采用OHEM的策略进行，其中正负样本的比例设为1： 3；同时，对于文本中心区域分割图，我们只考虑文本区域内的像素点。 8.根据权利要求1所述的一种基于选择性特征融合金字塔的场景文本检测方法，其特征在于：步骤S8文本分割图生成候选框获得文本检测结果；步骤S7生成的文本分割图，通过乘法操作将文本区域分割图和文本中心区域分割图合并为最终的分割图，并通过opencv 下连通域和轮廓检测算法获得候选框；将候选框在原图中绘出后，得到最终检测结果。权　利　要　求　书 2/2 页 3 CN 114332841 A 3

专利 一种基于选择性特征融合金字塔的场景文本检测方法

专利一种基于选择性特征融合金字塔的场景文本检测方法