(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111650184.2
(22)申请日 2021.12.3 0
(71)申请人 杭州电子科技大 学
地址 310018 浙江省杭州市下沙高教园区2
号大街
(72)发明人 侯平智 王晓虎 彭圣仆 厉东北
(74)专利代理 机构 杭州君度专利代理事务所
(特殊普通 合伙) 33240
代理人 朱亚冠
(51)Int.Cl.
G06V 40/20(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于ShuffleNet-SSD的手势识别方法
及系统
(57)摘要
本发明公开一种基于ShuffleNet ‑SSD的手
势识别方法及系统。 采集手势图像, 将其转换为
固定尺寸, 并对其进行标签标注, 并以训练集与
测试集一定比例构建数据集; 构建ShuffleNet ‑
SSD网络模型; 训练ShuffleNet ‑SSD模型, 并对 其
进行参数调整与优化; 利用已经训练好的
ShuffleNet ‑SSD模型实现手势的识别。 本发明提
出轻量级网络框架代替VGG16框架, 减少计算消
耗资源。 通过ShuffleNet网络进行特征提取, 提
升识别精度, 降低消耗资源。
权利要求书1页 说明书4页 附图3页
CN 114419730 A
2022.04.29
CN 114419730 A
1.一种基于Shuf fleNet‑SSD的手势识别方法, 其特 征在于包括以下步骤:
步骤 (1) 、 采集手势图像, 将其转换为 固定尺寸, 并对其进行标签标注, 并以训练集与测
试集一定比例构建数据集;
步骤 (2) 、 构建Shuf fleNet‑SSD网络模型;
ShuffleNet‑SSD网络包括特 征提取网络Shuf fleNet、 软化非极大值抑制块Soft ‑NMS;
所述特征提取网络ShuffleNet网络结构, 包括Conv1层、 MaxPool层、 Stage2层、 Stage3
层、 Stage4层;
所述Conv1层将输入为224*224大小的图像经3*3卷积输出为112*112特征图至MaxPool
层;
所述MaxPo ol层将112*112特征图经最大值池化输出为5 6*56特征图至Sta ge2层;
所述Stage2层包含 1次步长为2的ShuffleNet单元与3次步长为1的ShuffleNet单元, 输
出28*28的特 征图至Sta ge3层;
所述Stage3层包含 1次步长为2的ShuffleNet单元与7次步长为1的ShuffleNet单元, 输
出14*14的特 征图至Sta ge4层;
所述Stage4层包含 1次步长为2的ShuffleNet单元与3次步长为1的ShuffleNet单元, 输
出7*7的特征图;
步骤 (3) 、 训练Shuf fleNet‑SSD模型, 并对其进行参数调整与优化;
步骤 (4) 、 利用已经训练好的Shuf fleNet‑SSD模型实现手势的识别。
2.根据权利要求1所述方法, 其特征在于所述软化非极大值抑制块Soft ‑NMS用于对特
征提取网络Shuf fleNet输出的特 征图中的检测框进行高度重 叠剔除。
3.根据权利要求 4所述方法, 其特 征在于所述软化非极大值抑制块Soft ‑NMS具体如下:
(1)
其中M是特征提取网络ShuffleNet输出的特征 图中检测框集合, bi为 除最高置信度框
外其他框, Si为当前检测框得分, i ou表示置信度;
f(iou(M,bi) )为权重函数, 具体是:
(2)
其中, D为经 过Soft‑NMS抑制的检测框, σ 为人为指定参数。
4.一种基于Shuf fleNet‑SSD的手势识别系统, 其特 征在于包括:
数据集制作模块, 制作用于训练Shuf fleNet‑SSD的训练集;
模型训练模块, 用于将所述训练集 中预处理后的手势图像输入到ShuffleNet ‑SSD模型
并进行训练;
手势识别模块, 用于通过训练好的ShuffleNet ‑SSD模型对待识别的手势进行预测并产
生识别结果。权 利 要 求 书 1/1 页
2
CN 114419730 A
2一种基于Sh uffleNet‑SSD的手势识别方 法及系统
技术领域
[0001]本发明属于计算机视觉领域, 主要涉及一种基于ShuffleNet ‑SSD的手势识别方法
及系统。
背景技术
[0002]手势作为最符合人类习惯的交互方式, 在虚拟仿真领域有着不错的表现。 随着对
交互体验感越来越高的追求, 也对应用于手势交 互中的手势 识别技术提出了更高的要求。
[0003]目前, 基于深度学习的手势识别方法主要分为两类:: 双步算法和单步算法。 双步
算法将识别过程分为两个阶段, 首先产生候选区域, 然后对候选区域分类, 这类算法的典型
代表是R‑CNN系算法, 如R‑CNN, SPPNet, Fast R‑CNN, Faster R‑CNN, FPN, R ‑FCN等。 单步算 法
不需要产生候选区域 阶段, 它直接产生物体的类别概率和 位置坐标值, 经过单次检测即可
直接得到最终的检测结果, 因此有着更快的检测速度, 比较典型的算法如YOLO, SSD,
Retina‑Net。 其中SSD是一种非常优秀的手势识别方法, SSD算法使用VGG16网络进行特征提
取, 该模型虽然有较好的表现, 但结构臃肿、 参数数量多, 降低了模型检测的速度。 对于人机
交互来说, 由于空间、 成本等限制以及对实时性的要求, 需要 进一步对SSD算法进行优化。
[0004]非最大抑制(Non ‑maximum suppression,NMS)是手势识别中重要的组成部分。 NMS
算法首先按照得分从高到低对检测框进行排序, 然后分数最高的检测框被选中, 其他框与
被选中框有明显重叠的框被抑制 。 该过程被不断递归的应用于其余检测框。 根据算法的设
计, 如果一个物体处于预设的重叠阈值之内, 可能会导致检测不到该待检测物体。 即当两个
目标框接近时, 分数 更低的框就会因为与之重 叠面积过 大而被删掉。
发明内容
[0005]本发明的目的是针对现有技术的不足, 提供一种基于ShuffleNet ‑SSD的手势识别
方法。
[0006]本发明包括以下步骤:
[0007]步骤(1)、 采集手势图像, 将其转换为224*224的固定尺寸, 并对其进行标签标注,
并以训练集与测试集 为9:1的比例构建数据集;
[0008]步骤(2)、 构建Shuf fleNet‑SSD网络模型;
[0009]ShuffleNet ‑SSD网络包括特征提取网络ShuffleNet、 软化非极大值抑制块Soft ‑
NMS;
[0010]作为优选, ShuffleNet网络利用分组卷积以及通道乱序的思想, 在小型网络中具
有良好的表现。 分组卷积通过确保每个卷积操作仅作用于对应的输入通道分组来大幅降低
计算成本, 通道乱序可使分组卷积从不同的组中获取到输入数据, 避免了某个通道的输出
仅来自输入通道的一小部分。 ShuffleNet网络中包含两个单元, 分别为步长为1的
ShuffleNet单 元和步长为2的Shuf fleNet单 元。
[0011]所述步长为1的ShuffleNet单元使用了一个 1*1的分组卷积, 接着进行通道乱序操说 明 书 1/4 页
3
CN 114419730 A
3
专利 一种基于ShuffleNet-SSD的手势识别方法及系统
文档预览
中文文档
9 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 21:46:59上传分享