专利 一种基于ShuffleNet-SSD的手势识别方法及系统

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111650184.2 (22)申请日 2021.12.3 0 (71)申请人杭州电子科技大学地址 310018 浙江省杭州市下沙高教园区2 号大街 (72)发明人侯平智　王晓虎　彭圣仆　厉东北　 (74)专利代理机构杭州君度专利代理事务所 (特殊普通合伙) 33240 代理人朱亚冠 (51)Int.Cl. G06V 40/20(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于ShuffleNet-SSD的手势识别方法及系统 (57)摘要本发明公开一种基于ShuffleNet ‑SSD的手势识别方法及系统。采集手势图像，将其转换为固定尺寸，并对其进行标签标注，并以训练集与测试集一定比例构建数据集；构建ShuffleNet ‑ SSD网络模型；训练ShuffleNet ‑SSD模型，并对其进行参数调整与优化；利用已经训练好的 ShuffleNet ‑SSD模型实现手势的识别。本发明提出轻量级网络框架代替VGG16框架，减少计算消耗资源。通过ShuffleNet网络进行特征提取，提升识别精度，降低消耗资源。权利要求书1页说明书4页附图3页 CN 114419730 A 2022.04.29 CN 114419730 A 1.一种基于Shuf fleNet‑SSD的手势识别方法，其特征在于包括以下步骤：步骤（1）、采集手势图像，将其转换为固定尺寸，并对其进行标签标注，并以训练集与测试集一定比例构建数据集；步骤（2）、构建Shuf fleNet‑SSD网络模型； ShuffleNet‑SSD网络包括特征提取网络Shuf fleNet、软化非极大值抑制块Soft ‑NMS；所述特征提取网络ShuffleNet网络结构，包括Conv1层、 MaxPool层、 Stage2层、 Stage3 层、 Stage4层；所述Conv1层将输入为224*224大小的图像经3*3卷积输出为112*112特征图至MaxPool 层；所述MaxPo ol层将112*112特征图经最大值池化输出为5 6*56特征图至Sta ge2层；所述Stage2层包含 1次步长为2的ShuffleNet单元与3次步长为1的ShuffleNet单元，输出28*28的特征图至Sta ge3层；所述Stage3层包含 1次步长为2的ShuffleNet单元与7次步长为1的ShuffleNet单元，输出14*14的特征图至Sta ge4层；所述Stage4层包含 1次步长为2的ShuffleNet单元与3次步长为1的ShuffleNet单元，输出7*7的特征图；步骤（3）、训练Shuf fleNet‑SSD模型，并对其进行参数调整与优化；步骤（4）、利用已经训练好的Shuf fleNet‑SSD模型实现手势的识别。 2.根据权利要求1所述方法，其特征在于所述软化非极大值抑制块Soft ‑NMS用于对特征提取网络Shuf fleNet输出的特征图中的检测框进行高度重叠剔除。 3.根据权利要求 4所述方法，其特征在于所述软化非极大值抑制块Soft ‑NMS具体如下： (1) 其中M是特征提取网络ShuffleNet输出的特征图中检测框集合， bi为除最高置信度框外其他框， Si为当前检测框得分， i ou表示置信度； f(iou(M,bi) )为权重函数，具体是： (2) 其中， D为经过Soft‑NMS抑制的检测框， σ 为人为指定参数。 4.一种基于Shuf fleNet‑SSD的手势识别系统，其特征在于包括：数据集制作模块，制作用于训练Shuf fleNet‑SSD的训练集；模型训练模块，用于将所述训练集中预处理后的手势图像输入到ShuffleNet ‑SSD模型并进行训练；手势识别模块，用于通过训练好的ShuffleNet ‑SSD模型对待识别的手势进行预测并产生识别结果。权　利　要　求　书 1/1 页 2 CN 114419730 A 2一种基于Sh uffleNet‑SSD的手势识别方法及系统技术领域 [0001]本发明属于计算机视觉领域，主要涉及一种基于ShuffleNet ‑SSD的手势识别方法及系统。背景技术 [0002]手势作为最符合人类习惯的交互方式，在虚拟仿真领域有着不错的表现。随着对交互体验感越来越高的追求，也对应用于手势交互中的手势识别技术提出了更高的要求。 [0003]目前，基于深度学习的手势识别方法主要分为两类:：双步算法和单步算法。双步算法将识别过程分为两个阶段，首先产生候选区域，然后对候选区域分类，这类算法的典型代表是R‑CNN系算法，如R‑CNN， SPPNet， Fast R‑CNN， Faster R‑CNN， FPN， R ‑FCN等。单步算法不需要产生候选区域阶段，它直接产生物体的类别概率和位置坐标值，经过单次检测即可直接得到最终的检测结果，因此有着更快的检测速度，比较典型的算法如YOLO， SSD， Retina‑Net。其中SSD是一种非常优秀的手势识别方法， SSD算法使用VGG16网络进行特征提取，该模型虽然有较好的表现，但结构臃肿、参数数量多，降低了模型检测的速度。对于人机交互来说，由于空间、成本等限制以及对实时性的要求，需要进一步对SSD算法进行优化。 [0004]非最大抑制(Non ‑maximum suppression,NMS)是手势识别中重要的组成部分。 NMS 算法首先按照得分从高到低对检测框进行排序，然后分数最高的检测框被选中，其他框与被选中框有明显重叠的框被抑制。该过程被不断递归的应用于其余检测框。根据算法的设计，如果一个物体处于预设的重叠阈值之内，可能会导致检测不到该待检测物体。即当两个目标框接近时，分数更低的框就会因为与之重叠面积过大而被删掉。发明内容 [0005]本发明的目的是针对现有技术的不足，提供一种基于ShuffleNet ‑SSD的手势识别方法。 [0006]本发明包括以下步骤： [0007]步骤(1)、采集手势图像，将其转换为224*224的固定尺寸，并对其进行标签标注，并以训练集与测试集为9:1的比例构建数据集； [0008]步骤(2)、构建Shuf fleNet‑SSD网络模型； [0009]ShuffleNet ‑SSD网络包括特征提取网络ShuffleNet、软化非极大值抑制块Soft ‑ NMS； [0010]作为优选， ShuffleNet网络利用分组卷积以及通道乱序的思想，在小型网络中具有良好的表现。分组卷积通过确保每个卷积操作仅作用于对应的输入通道分组来大幅降低计算成本，通道乱序可使分组卷积从不同的组中获取到输入数据，避免了某个通道的输出仅来自输入通道的一小部分。 ShuffleNet网络中包含两个单元，分别为步长为1的 ShuffleNet单元和步长为2的Shuf fleNet单元。 [0011]所述步长为1的ShuffleNet单元使用了一个 1*1的分组卷积，接着进行通道乱序操说　明　书 1/4 页 3 CN 114419730 A 3

专利 一种基于ShuffleNet-SSD的手势识别方法及系统

专利一种基于ShuffleNet-SSD的手势识别方法及系统