专利 一种基于人体骨架的行为识别方法及系统

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111647653.5 (22)申请日 2021.12.3 0 (71)申请人复旦大学地址 200433 上海市杨浦区邯郸路2 20号 (72)发明人张立华　魏志强　石鑫鑫　 (74)专利代理机构上海科盛知识产权代理有限公司 312 25 代理人蔡彭君 (51)Int.Cl. G06V 40/20(2022.01) G06V 20/52(2022.01) G06V 10/30(2022.01) G06V 10/40(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01)G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于人体骨架的行为识别方法及系统 (57)摘要本发明涉及一种基于人体骨架的行为识别方法及系统，方法包括：获取时间上连续的图像序列；使用姿态估计方法得到骨架序列；将骨架序列分别送入第一模型和第二模型，第一模型为时间卷积网络，用于提取骨架序列的时间特征，第二模型包括视图自适应网络和空间图卷积网络，用于提取骨架序列的空间特征；融合时间特征和空间特征，输出人类行为动作。与现有技术相比，本发明将图像信息转化为人体骨架序列信息，分别提取空间特征和时间特征，在空间特征提取中进行了视角自适应调整，并加入了关节点之间的连接关系，识别准确率和鲁棒性更好。权利要求书3页说明书10页附图3页 CN 114373225 A 2022.04.19 CN 114373225 A 1.一种基于人体骨架的行为识别方法，其特征在于，包括以下步骤： S1、获取时间上连续的图像序列，并进行预处理，所述图像序列中的图像为人类行为图像； S2、使用姿态估计方法获取每张图像中的骨架信息，得到图像序列对应的骨架序列； S3、将骨架序列分别送入第一模型和第二模型，第一模型为时间卷积网络，用于提取骨架序列的时间特征，第二模型包括视图自适应网络和空间图卷积网络，用于提取骨架序列的空间特征，所述视图自适应网络的输出送入空间图卷积网络； S4、将骨架序列的时间特征和空间特征输入全连接网络进行融合，输出识别的人类行为动作。 2.根据权利要求1所述的一种基于人体骨架的行为识别方法，其特征在于，步骤S1中，获取视频或时间上连续的多张图像，按照预设的采样间隔进行采样，得到时间上连续的图像序列。 3.根据权利要求1所述的一种基于人体骨架的行为识别方法，其特征在于，所述预处理包括去噪、划定人体所在区域的感兴趣区域和图像缩放。 4.根据权利要求1所述的一种基于人体骨架的行为识别方法，其特征在于，步骤S2中，使用OpenPose姿态估计方法获取每张图像中的骨架信息，得到图像序列对应的骨架序列。 5.根据权利要求1所述的一种基于人体骨架的行为识别方法，其特征在于，所述时间卷积网络的输入为骨架序列，输出为时间特征张量，包括两个卷积层、两个池化层和一个全连接层；所述视图自适应网络的输入为骨架序列，包括LSTM层和全连接层，输出为视角自适应调整后的骨架序列，将视角自适应调整后的骨架序列利用邻接矩阵增加骨架上关节点之间的连接关系；所述空间图卷积网络的输入为视角自适应调整后的骨架序列以及邻接矩阵，输出为空间特征张量，包括两个图卷积层、两个图池化层和一个全连接层；所述全连接网络的输入为时间特征张量和空间特征张量，输出为人类各个行为动作的概率，包括时间全连接层、空间全连接层和Softmax分类器。 6.根据权利要求5所述的一种基于人体骨架的行为识别方法，其特征在于，步骤S1至步骤S4中的数据流动关系如下：对于一个m ×h×l的图像序列X，包含m帧图像，每帧的像素大小是h ×l，使用姿态估计方法获取图像序列X的骨架序列W＝F姿态估计(X)， W为m ×a×3的张量，其中a ×3表示人体骨架信息中的a个关节点在图像中x轴、 y轴的坐标以及置信分值；张量W分别送入时间卷积网络和视图自适应网络：时间卷积网络输出时间特征张量T＝ F时间卷积(W)， T为a ×q×1的时间特征张量， q＝[(a ‑k+2p)/s]+1，其中，时间卷积网络的卷积核大小为k×3，步长为s，填充层数为p；视图自适应网络输出视角自适应调整后的骨架序列 R ＝F视角自适应(W)， R为m ×a×3的张量；将视角自适应调整后的骨架序列利用大小为a ×a的邻接矩阵增加骨架上关节点之间的连接关系，将视图自适应网络输出视角自适应调整后的骨架序列R和a ×a的邻接矩阵送入空间图卷积网络，经过图卷积操作得到特征张量SC＝F空间卷积(R)， SC为m×a×3的特征张量，再做图池化操作得到空间特征张量Sp＝F空间池化(SC)， Sp为m×a×10×3的空间特征张量， 10表示池化后的特征节点数，特征节点是通过池化操作从所有关节点中提取的影响动作类别的关键关节点；权　利　要　求　书 1/3 页 2 CN 114373225 A 2将时间特征张量T和空间特征张量Sp分别输入全连接网络，分别得到时间特征向量v＝ F时间全连接(T)和空间特征向量u＝F空间全连接(Sp)，其中， v包含a个时间特征， u包含m ×a个空间特征，再将时间特征向量v和空间特征向量u分别输入到Softmax分类器， Softmax分类器分别输出n维的第一向量和第二向量， n为人类行为动作的种类总数，第一向量和第二向量表示n 种人类行为动作的概率估计值，汇总第一向量和第二向量，求出概率最大的人类行为动作并输出。 7.一种基于人体骨架的行为识别系统，其特征在于，基于如权利要求1 ‑6中任一所述的一种基于人体骨架的行为识别方法，包括：数据采集模块，获取时间上连续的图像序列，并进行预处理，所述图像序列中的图像为人类行为图像；骨架提取模块，使用姿态估计方法获取每张图像中的骨架信息，得到图像序列对应的骨架序列；特征提取模块，将骨架序列分别送入第一模型和第二模型，第一模型为时间卷积网络，用于提取骨架序列的时间特征，第二模型包括视图自适应网络和空间图卷积网络，用于提取骨架序列的空间特征，所述视图自适应网络的输出送入空间图卷积网络；特征融合模块，将骨架序列的时间特征和空间特征输入全连接网络进行融合，输出识别的人类行为动作。 8.根据权利要求7所述的一种基于人体骨架的行为识别系统，其特征在于，骨架提取模块使用OpenPose姿态估计方法获取每张图像中的骨架信息，得到图像序列对应的骨架序列。 9.根据权利要求7所述的一种基于人体骨架的行为识别系统，其特征在于，特征提取模块中，所述时间卷积网络的输入为骨架序列，输出为时间特征张量，包括两个卷积层、两个池化层和一个全连接层；所述视图自适应网络的输入为骨架序列，包括LSTM层和全连接层，输出为视角自适应调整后的骨架序列，将视角自适应调整后的骨架序列利用邻接矩阵增加骨架上关节点之间的连接关系；所述空间图卷积网络的输入为视角自适应调整后的骨架序列以及邻接矩阵，输出为空间特征张量，包括两个图卷积层、两个图池化层和一个全连接层；所述全连接网络的输入为时间特征张量和空间特征张量，输出为人类各个行为动作的概率，包括时间全连接层、空间全连接层和Softmax分类器。 10.根据权利要求9所述的一种基于人体骨架的行为识别系统，其特征在于，行为识别系统中的数据流动关系如下：对于一个m ×h×l的图像序列X，包含m帧图像，每帧的像素大小是h ×l，使用姿态估计方法获取图像序列X的骨架序列W＝F姿态估计(X)， W为m ×a×3的张量，其中a ×3表示人体骨架信息中的a个关节点在图像中x轴、 y轴的坐标以及置信分值；张量W分别送入时间卷积网络和视图自适应网络：时间卷积网络输出时间特征张量T＝ F时间卷积(W)， T为a ×q×1的时间特征张量， q＝[(a ‑k+2p)/s]+1，其中，时间卷积网络的卷积核大小为k×3，步长为s，填充层数为p；视图自适应网络输出视角自适应调整后的骨架序列 R ＝F视角自适应(W)， R为m ×a×3的张量；将视角自适应调整后的骨架序列利用大小为a ×a的邻接矩阵增加骨架上关节点之间的连接关系，将视图自适应网络输出视角自适应调整后的骨架序列R和a ×a的邻接矩阵送权　利　要　求　书 2/3 页 3 CN 114373225 A 3

专利 一种基于人体骨架的行为识别方法及系统

专利一种基于人体骨架的行为识别方法及系统