(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111647653.5
(22)申请日 2021.12.3 0
(71)申请人 复旦大学
地址 200433 上海市杨 浦区邯郸路2 20号
(72)发明人 张立华 魏志强 石鑫鑫
(74)专利代理 机构 上海科盛知识产权代理有限
公司 312 25
代理人 蔡彭君
(51)Int.Cl.
G06V 40/20(2022.01)
G06V 20/52(2022.01)
G06V 10/30(2022.01)
G06V 10/40(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于人体骨架的行为识别方法及系统
(57)摘要
本发明涉及一种基于人体骨架的行为识别
方法及系统, 方法包括: 获取时间上连续的图像
序列; 使用姿态估计方法得到骨架序列; 将骨架
序列分别送入第一模型和第二模 型, 第一模型为
时间卷积网络, 用于提取骨架序列的时间特征,
第二模型包括视图自适应网络和空间图卷积网
络, 用于提取骨架序列的空间特征; 融合时间特
征和空间特征, 输出人类行为动作。 与现有技术
相比, 本发 明将图像信息转化为人体骨架序列信
息, 分别提取空间特征和时间特征, 在空间特征
提取中进行了视角自适应调整, 并加入了关节点
之间的连接关系, 识别准确率和鲁棒 性更好。
权利要求书3页 说明书10页 附图3页
CN 114373225 A
2022.04.19
CN 114373225 A
1.一种基于人体骨架的行为识别方法, 其特 征在于, 包括以下步骤:
S1、 获取时间上连续的图像序列, 并进行预处理, 所述图像序列中的图像为人类行为图
像;
S2、 使用姿态估计方法获取每张图像中的骨架信息, 得到图像序列对应的骨架序列;
S3、 将骨架序列分别送入第一模型和第二模型, 第一模型为时间卷积网络, 用于提取骨
架序列的时间特征, 第二模型包括视图自适应网络和空间图卷积网络, 用于提取骨架序列
的空间特 征, 所述视图自适应网络的输出送入空间图卷积网络;
S4、 将骨架序列的时间特征和空间特征输入全连接网络进行融合, 输出识别的人类行
为动作。
2.根据权利要求1所述的一种基于人体骨架的行为识别方法, 其特征在于, 步骤S1中,
获取视频或时间上连续的多张图像, 按照预设的采样间隔进行采样, 得到时间上连续的图
像序列。
3.根据权利要求1所述的一种基于人体骨架的行为识别方法, 其特征在于, 所述预处理
包括去噪、 划定人体所在区域的感兴趣区域和图像缩放。
4.根据权利要求1所述的一种基于人体骨架的行为识别方法, 其特征在于, 步骤S2中,
使用OpenPose姿态估计方法获取每张图像中的骨架信息, 得到图像序列对应的骨架序列。
5.根据权利要求1所述的一种基于人体骨架的行为识别方法, 其特征在于, 所述时间卷
积网络的输入为骨架序列, 输出为时间特征张量, 包括两个卷积层、 两个池化层和一个全连
接层; 所述视图自适应网络的输入为骨架序列, 包括LSTM层和全连接层, 输出为视角自适应
调整后的骨架序列, 将视角自适应调整后的骨架序列利用邻接矩阵增加骨架上关节点之间
的连接关系; 所述空间图卷积网络的输入为视角自适应调整后的骨架序列以及邻接矩阵,
输出为空间特征张量, 包括两个图卷积层、 两个图池化层和一个全连接层; 所述全连接网络
的输入为时间特征张量和空间特征张量, 输出为人类各个行为动作的概率, 包括时间全连
接层、 空间全连接层和Softmax分类 器。
6.根据权利要求5所述的一种基于人体骨架的行为识别方法, 其特征在于, 步骤S1至步
骤S4中的数据流动关系如下:
对于一个m ×h×l的图像序列X, 包含m帧图像, 每帧的像素大小是h ×l, 使用姿态估计
方法获取图像序列X的骨架序列W=F姿态估计(X), W为m ×a×3的张量, 其中a ×3表示人体骨架
信息中的a个关节点在图像中x轴 、 y轴的坐标以及置信分值;
张量W分别送入时间卷积网络和视图自适应网络: 时间卷积网络输出时间特征张量T=
F时间卷积(W), T为a ×q×1的时间特征张量, q=[(a ‑k+2p)/s]+1, 其中, 时间卷积网络的卷积核
大小为k×3, 步长为s, 填充层数为p; 视图自适应网络输出视角自适应调整后的骨架序列 R
=F视角 自适应(W), R为m ×a×3的张量;
将视角自适应调整后的骨架序列利用大小为a ×a的邻接矩阵增加骨架上关节点之间
的连接关系, 将视图自适应网络输出视角自适应调整后的骨架序列R和a ×a的邻接矩阵送
入空间图卷积网络, 经过图卷积操作得到特征张量SC=F空间卷积(R), SC为m×a×3的特征张量,
再做图池化操作得到空间特征张量Sp=F空间池化(SC), Sp为m×a×10×3的空间特征张量, 10表
示池化后的特征节点数, 特征节点是通过池化操作从所有关节点中提取的影响动作类别的
关键关节点;权 利 要 求 书 1/3 页
2
CN 114373225 A
2将时间特征张量T和空间特征张量Sp分别输入全连接网络, 分别 得到时间特征向量v=
F时间全连接(T)和空间特征向量u=F空间全连接(Sp), 其中, v包含a个时间特征, u包含m ×a个空间特
征, 再将时间特征向量v和空间特征向量u分别输入到Softmax分类器, Softmax分类器分别
输出n维的第一向量和第二向量, n为人类行为动作的种类总数, 第一向量和第二向量表 示n
种人类行为动作的概率估计值, 汇总第一向量和第二向量, 求出概率最大 的人类行为动作
并输出。
7.一种基于人体骨架的行为识别系统, 其特征在于, 基于如权利要求1 ‑6中任一所述的
一种基于人体骨架的行为识别方法, 包括:
数据采集模块, 获取时间上连续的图像序列, 并进行预处理, 所述图像序列中的图像为
人类行为图像;
骨架提取模块, 使用姿态估计方法获取每张图像中的骨架信息, 得到 图像序列对应的
骨架序列;
特征提取模块, 将骨架序列分别送入第一模型和第 二模型, 第一模型为 时间卷积网络,
用于提取骨架序列的时间特征, 第二模型包括视图自适应网络和空间图卷积网络, 用于提
取骨架序列的空间特 征, 所述视图自适应网络的输出送入空间图卷积网络;
特征融合模块, 将骨架序列的时间特征和 空间特征输入全连接网络进行融合, 输出识
别的人类行为动作。
8.根据权利要求7所述的一种基于人体骨架的行为识别系统, 其特征在于, 骨架提取模
块使用OpenPose姿态估计方法获取每张图像中的骨架信息, 得到图像序列对应的骨架序
列。
9.根据权利要求7所述的一种基于人体骨架的行为识别系统, 其特征在于, 特征提取模
块中, 所述时间卷积网络的输入为骨架序列, 输出为时间特征张量, 包括两个卷积层、 两个
池化层和一个全连接层; 所述视图自适应网络的输入为骨架序列, 包括LSTM层和全连接层,
输出为视角自适应调整后的骨架序列, 将视角自适应调整后的骨架序列利用邻接矩阵增加
骨架上关节点之间的连接关系; 所述空间图卷积网络的输入为视角自适应调整后的骨架序
列以及邻接矩阵, 输出为空间特征张量, 包括两个图卷积层、 两个图池化层和一个全连接
层; 所述全连接网络的输入为时间特征张量和空间特征张量, 输出为人类各个行为动作的
概率, 包括时间全连接层、 空间全连接层和Softmax分类 器。
10.根据权利要求9所述的一种基于人体骨架 的行为识别系统, 其特征在于, 行为识别
系统中的数据流动关系如下:
对于一个m ×h×l的图像序列X, 包含m帧图像, 每帧的像素大小是h ×l, 使用姿态估计
方法获取图像序列X的骨架序列W=F姿态估计(X), W为m ×a×3的张量, 其中a ×3表示人体骨架
信息中的a个关节点在图像中x轴 、 y轴的坐标以及置信分值;
张量W分别送入时间卷积网络和视图自适应网络: 时间卷积网络输出时间特征张量T=
F时间卷积(W), T为a ×q×1的时间特征张量, q=[(a ‑k+2p)/s]+1, 其中, 时间卷积网络的卷积核
大小为k×3, 步长为s, 填充层数为p; 视图自适应网络输出视角自适应调整后的骨架序列 R
=F视角 自适应(W), R为m ×a×3的张量;
将视角自适应调整后的骨架序列利用大小为a ×a的邻接矩阵增加骨架上关节点之间
的连接关系, 将视图自适应网络输出视角自适应调整后的骨架序列R和a ×a的邻接矩阵送权 利 要 求 书 2/3 页
3
CN 114373225 A
3
专利 一种基于人体骨架的行为识别方法及系统
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 21:47:07上传分享