(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111667119.0
(22)申请日 2021.12.31
(71)申请人 福州大学
地址 350108 福建省福州市闽侯县福州大
学城乌龙江北 大道2号福州大 学
(72)发明人 陈平平 陈宏辉 游索
(74)专利代理 机构 福州元创专利商标代理有限
公司 35100
代理人 蔡学俊 薛金才
(51)Int.Cl.
G06V 20/62(2022.01)
G06V 30/146(2022.01)
G06V 30/148(2022.01)
G06V 30/18(2022.01)
G06V 30/19(2022.01)G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06K 9/62(2022.01)
(54)发明名称
一种基于选择性特征融合金字塔的场景文
本检测方法
(57)摘要
一种基于选择性特征融合金字塔的场景文
本检测方法, 包括基于选择性特征融合金字塔的
场景文本检测网络, 场景文本的检测包括以下步
骤: 步骤S1: 获取不同场景中的包含文本的图像
生成数据集, 其中包含任意形状文本; 步骤S2: 对
数据集进行处理, 得到用于训练数据集A与测试
数据集B; 步骤S3: 构建用于 特征提取的深度神经
网络; 应用本方案可实现有效检测自然场景中的
长直, 多方向文本, 也可 以有效检测自然场景下
的任意形状文本 。
权利要求书2页 说明书6页 附图3页
CN 114332841 A
2022.04.12
CN 114332841 A
1.一种基于选择性特征融合金字塔的场景文本检测方法, 包括基于选择性特征融合金
字塔的场景文本检测网络, 其特 征在于:
场景文本的检测包括以下步骤:
步骤S1: 获取不同场景中的包 含文本的图像生成数据集, 其中包 含任意形状文本;
步骤S2: 对数据集进行处 理, 得到用于训练数据集A与测试 数据集B;
步骤S3: 构建用于特 征提取的深度神经网络;
步骤S4: 训练阶段将训练数据集A送入深度神经网络中训练以及在测试阶段将测试数
据集B送入深度神经网络中测试从而分别获得五种尺度的特 征层;
步骤S5: 构造 选择性特 征融合金字塔;
步骤S6: 训练阶段将训练数据集A所获得的五种尺度特征层送入选择性特征融合金字
塔训练以及在测试阶段将测试数据集B所获得的五种尺度特征层送入选择性特征融合金字
塔测试从而获得输出 特征层;
步骤S7: 训练阶段将输出特征层送入多卷积分割头训练输出文本分割图以及在测试阶
段将输出 特征层送入多卷积分割头 输出文本分割图;
步骤S8: 文本分割图生成候选 框获得文本检测结果。
2.根据权利要求1所述的一种基于选择性特征融合金字塔的场景文本检测方法, 其特
征在于: 步骤S1所采用的数据集为CTW1500、 Totaltext、 MSRA ‑TD500、 ICDAR2015四个数据
集。
3.根据权利要求1所述的一种基于选择性特征融合金字塔的场景文本检测方法, 其特
征在于: 步骤S2中数据处理部分, 主要对训练数据集A进行数据增强, 包括旋转, 放缩, 随机
剪裁镜像。
4.根据权利要求1所述的一种基于选择性特征融合金字塔的场景文本检测方法, 其特
征在于: 步骤S 3构建用于特征提取的深度神经网络, 具体采用VGG16作为用于特征提取的深
度神经网络; 截断了模 型的最后三层全连接层, 得到一个全 卷积网络, 选取vgg16中5个阶段
的特征层, 分别为(1/2,1/4,1/8,1/16,1/ 32)尺度特 征层作为本阶段的输出。
5.根据权利要求1所述的一种基于选择性特征融合金字塔的场景文本检测方法, 其特
征在于: 步骤S5构建选择性特 征融合金字塔, 将其分为 三个阶段, 具体包括以下步骤:
步骤S51: 第 一阶段用于一次特征筛选, 通过三个二维权重对五种不同尺度的特征层进
行第一轮特 征筛选;
二维权重计算公式如下 所示:
其中wi是二维权重, i=0,1,2,3;
fx和fy代表四组相邻的特征层组;
convn×n是一个卷积核大小为n ×n深度可分离卷积; Hj是第一轮筛选得到的特征层, j=1,2,
3;
步骤S52: 第 二阶段用于二次特征筛选, 通过三组三维权重和一组二维权重对一次特征
筛选结果和五种不同尺度特 征层进行第二轮特 征筛选;
三维权重计算公式如下 所示:权 利 要 求 书 1/2 页
2
CN 114332841 A
2其中
是三维权重, i=0,1,2,3;
fq, fp, fz代表四组相邻的
特征层组; Fk是第二轮筛 选后的特 征层, k=1,2,3,4,5;
步骤S53: 第三阶段构建金字塔特征融合结构, 将二轮筛选后的特征层Fk上采样之后
concat在一 起得到最终的特 征层Ffinal。
6.根据权利要求1所述的一种基于选择性特征融合金字塔的场景文本检测方法, 其特
征在于: 步骤S6训练阶段将训练数据集A送入深度神经网络中训练以及在测试阶段将测试
数据集B送入深度神经网络中测试从而分别获得五种尺度的特征层, 步骤S4中深度神经网
络产生的5种尺度的特征层被送入步骤S5所建立的选择性特征融合金字塔中获得最 终的输
出特征层Ffinal; 步骤S5的前两个阶段为可循环阶段。
7.根据权利要求1所述的一种基于选择性特征融合金字塔的场景文本检测方法, 其特
征在于: 步骤S7训练阶段将输出特征层送入多 卷积分割头训练输出文本 分割图以及在测试
阶段将输出特征层送入多 卷积分割头输出文本 分割图, 文本分割图包括文本区域分割图和
文本中心区域分割图两部分; 步骤S6 生成的输出特征层Ffinal被送入多卷积分割头中进行降
维, 获得最终文本分割图; 多卷积分割头由conv3×3, 正则化BN层, 激活函数ReLU, conv1×1,
conv1×1构成; 具体包括以下步骤:
步骤S71: 步骤S6生成的输出特征层Ffinal经过conv3×3, 正则化BN层, 激活函数ReLU,
conv1×1得到维度为32的共享特 征层Fs, Fs∈Rh×w×32, 其中R表示实数, h为高度, w 为宽度;
步骤S72: 将共享特征层Fs经过conv1×1得到最终分割图Fc, Fc∈Rh×w×4, 其中两个通道被
用于文本区域分割图分类, 两个通道被用于文本中心区域分割图分类;
步骤S73: 训练阶段, 使用交叉熵损失构建用于监督文本分割图的损失函数, 公式如下
所示:
其中H(p,q)是真实值p和预测值q之间的交叉熵函数, pi是第i个真实值, qi是第i个预测
值; 并且, 对于文本区域分割图, 我们采用OHEM的策略进行, 其中正负样本的比例设为1: 3;
同时, 对于文本中心区域分割图, 我们只考虑文本区域内的像素点。
8.根据权利要求1所述的一种基于选择性特征融合金字塔的场景文本检测方法, 其特
征在于: 步骤S8文本 分割图生 成候选框获得文本检测结果; 步骤S7生成的文本分割图, 通过
乘法操作将文本区域分割图和文本中心区域分割图合并为最 终的分割图, 并通过opencv 下
连通域和轮廓检测算法获得候选 框; 将候选 框在原图中绘出后, 得到最终检测结果。权 利 要 求 书 2/2 页
3
CN 114332841 A
3
专利 一种基于选择性特征融合金字塔的场景文本检测方法
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 21:48:00上传分享