专利 一种利用标签编码进行中间监督的三维目标检测方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210017556.6 (22)申请日 2022.01.07 (71)申请人华东师范大学地址 200241 上海市闵行区东川路5 00号 (72)发明人沈超敏　刘新妹　张桂戌　彭亚新　黄尧民　 (74)专利代理机构上海蓝迪专利商标事务所 (普通合伙) 31215 代理人徐筱梅　张翔 (51)Int.Cl. G06V 20/64(2022.01) G06V 10/44(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01) G06K 9/62(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) G06T 7/50(2017.01) (54)发明名称一种利用标签编码进行中间监督的三维目标检测方法 (57)摘要本发明公开了一种利用标签编码进行中间监督的三维目标检测方法，适用于由三维场景数据特征提取模块和三维目标边界框检测模块组成的三维目标检测网络。利用辅助网络充当中间监督实现标签点云对特征提取模块的约束。方法分两步：第一步,将原始点云输入主干网络，提取原始点云中每个目标的点云输入辅助网络，通过优化两个网络的检测损失函数和网络之间的距离损失函数同时训练两个网络参数；第二步修改损失函数，改变两个网络的参数训练方式进行再次训练，完成后移除辅助网络，直接输入原始点云到主干网络即可进行检测。本发明的优点是在控制运算成本的基础上大幅度提升三维目标检测精度，最终在经典三维检测网络Votenet上提升3.8个百分点。权利要求书3页说明书11页附图4页 CN 114373177 A 2022.04.19 CN 114373177 A 1.一种利用标签编码进行中间监督的三维目标检测方法，其特征在于，包括以下步骤: 步骤1、首先使用由两个SA层和两个特征传播层顺序连接而成的pointNet++网络作为辅助网络p；其中两个SA层结构相同，都包含三个模块，第一个模块是采样层，负责对输入的 N个点云进行随机采样，得到只包含S 个点云的点云集合；第二个模块是分组层，设置固定的半径长度R，以点云集合中的每一个点云为圆心点，以R为半径，分别画圆，将每个圆内包含的点云分成一个组；第三个模块是PointNet层，将第二个模块得到的每个组内的点云分别编码成特征向量；两个特征传播层结构相同，均由全连接网络组成；步骤2、进行数据准备，首先下载三维室内场景数据集SUNRGB ‑D，将数据集SUNRGB ‑D中的RGB图片和深度图片通过坐标系映射转换成场景的原始点云数据，点云数据为N ×3的矩阵，其中矩阵的行数N表示点云个数为N，矩阵的列数为3表示每个点云在三维空间中的三个位置坐标x,y,z；接下来根据数据集SUNRGB ‑D中的标签盒信息提取每个场景全部点云中的所有目标物体点云，得到标签点云；其中，所述标签盒信息是指下载的三维室内场景数据集 SUNRGB‑D中标记好的目标物体信息，即场景中包围目标物体的空心立方体，由中心点和长宽高表示；步骤3、将步骤1的辅助网络p插入到三维目标检测主干网络的特征提取模块和目标边界框检测模块之间；三维目标检测主干网络采用Votenet网络，将辅助网络p插入的方式是在三维目标检测公式上添加一个中间监督项其具体公式如下： θf表示主干网络的特征提取模块网络参数； θd表示主干网络的目标边界框检测模块网络参数； θ* f表示优化后的主干网络的特征提取模块网络参数； θ* d表示优化后的主干网络的目标边界框检测模块网络参数；表示输入到辅助网络的标签点云； Ip表示输入到主干网络的原始点云； y表示数据标签； θp表示辅助网络参数； Ldet(d(f(Ip； θf)； θd),y)表示主干网络目标边界框检测模块的损失，由分类损失和目标边界框回归损失组成； d(f(Ip； θf)； θd)代表主干网络的目标边界框检测模块，以下简称检测模块； f(Ip； θf)代表主干网络的特征提取模块；代表辅助网络；表示加入的监督项； λ是平衡系数；其中监督项包含主干网络的特征提取模块提取的点云特征向量和辅助网络提取的点云特征向量的距离损失以及辅助网络输出结果的检测损失，监督项公式展开如下所示：其中f(Ip； θf)表示主干网络的特征提取模块； θf表示主干网络的特征提取模块的网络参数； y代表真实数据的标签； Ip表示输入到主干网络的原始点云；表示输入到辅助网络的标签点云；代表辅助网络； θp表示辅助网络参数；表示主干网络特征提取模块f的输出结果与辅助网络p的输出结果的距离损失；表示辅助网络输出结果的检测损失；其中所述距离损失的计算公式展开如下：权　利　要　求　书 1/3 页 2 CN 114373177 A 2其中LN(·)表示归一化层； || ·||表示Smooth Loss1； xf和xp分别表示从主干网络特征提取模块和辅助网络中获得的特征向量；代表辅助网络； mi n表示求最小值运算；步骤4、进行第一步交互训练：分别输入原始点云和标签点云到主干网络和辅助网络同时进行网络参数交互训练来优化各自的网络参数；交互训练的具体实现方法是通过如下公式优化辅助网络 θ* d1表示优化后的主干网络的检测模块的网络参数； θp*表示优化后的辅助网络参数； θf 表示主干网络的特征提取模块网络参数； θd1表示检测模块网络参数； Ldet(d(f(Ip； θf)； θd1), y)和分别表示主干网络的检测损失和辅助网络的检测损失，两个损失都由分类损失和边界框回归损失组成； y表示数据标签；表示主干网络特征提取模块f输出与辅助网络p输出的距离损失； λ1和 λ2都是平衡系数，分别设置为 1；公式(4)利用三种不同的Loss损失函数进行模型训练，从左到右的损失项依次是：辅助网络检测损失、主干网络检测损失及主干网络特征提取模块提取的特征向量与辅助网络提取的特征向量的距离损失在这一训练过程中，利用Smooth Loss1 损失计算主干网络特征提取模块输出和辅助网络输出的距离损失，将辅助网络输出结果作为Smooth Loss1方法的第二个参数，主干网络特征提取模块输出作为Smooth Loss1方法的第一个参数，从而禁止从主干网络到辅助网络的梯度流来防止点云的全局特征对目标实例特征产生直接影响；经本步骤训练得到优化后的辅助网络p；步骤5、利用步骤4学习得到的辅助网络p监督主干网络，首先摒弃步骤4的训练方式，固定辅助网络的参数不变，只添加步骤3中的主干网络特征提取模块提取的特征向量与辅助网络提取的特征向量的距离损失到主干网络的检测损失函数进行训练，如下公式所示： θf 1表示主干网络的特征提取模块网络参数， θd2表示主干网络的检测模块网络参数， θ*f1表示优化后的特征提取模块网络参数， θ*d2表示优化后的检测模块网络参数； d(f(Ip； θf1)； θd2)表示主干网络检测模块； f(Ip； θf1)表示主干网络特征提取模块； Ldet(d(f(Ip； θf1)； θd2),y)表示主干网络检测模块损失，由分类损失和边界框回归损失组成； θp*表示优化后的辅助网络参数； y 表示数据标签信息； λ表示平衡系数；表示优化后的辅助网络；表示主干网络提取特征模块f输出与辅助网络p输出的距离损失；步骤6、经过步骤4和步骤5的训练后，实现了辅助网络通过标签点云对主干网络特征提取模块进行约束的目的，此时的主干网络参数达到约束后的最优，接下来直接将辅助网络权　利　要　求　书 2/3 页 3 CN 114373177 A 3

专利 一种利用标签编码进行中间监督的三维目标检测方法

专利一种利用标签编码进行中间监督的三维目标检测方法