论文部分内容阅读
人体行为识别作为视频理解中的一个重要研究领域,其在智能监控、智能看护、人机交互以及机器人控制等场景有着广泛的应用。在人体行为识别的研究中,采用RGB视频数据容易受到背景多样性、光照变化、行为人衣着变化等因素影响,而人体骨架数据本身是对人体的高度抽象,且具有相对较好的抗干扰性,因此基于骨架的行为识别研究成为一个热点。目前骨架行为识别方法中,基于卷积神经网络的方法能精确地对骨架序列进行时空建模,但是所采用的模型参数量较大,并且需要用大型图像分类数据库预训练,这对硬件的存储和计算性能带来了挑战。此外,人人交互行为作为人体行为的一个子集,没有被针对性地建模,因此人人交互行为识别的准确度还有待提升。针对上述问题,本文提出了一种轻量型的人人交互行为识别方法,能在占用极少参数量且无需预训练的情况下精确地识别人人交互行为。本文主要工作如下:首先,本文使用从深度相机获取的三维骨架数据进行行为识别。针对行为识别模型参数量大的问题,本文以极少的参数构建了一种轻量型卷积神经网络用于人人交互行为识别,该网络包含特征提取网络、交互特征学习模块以及行为分类模块。为了提取骨架序列中人体行为的时空特征,本文首先将骨架序列按照时空分布表示成骨架图像,然后用极少参数量的卷积层构建特征提取网络,使用双路并行结构分别提取人人交互行为中两个人体的时空特征,并行的两路网络参数共享。同时,为了有效地从数据中学习人与人交互关系,本文设计了交互特征学习模块,将交互行为中两人的特征进行融合。最后,本文分析了网络各层参数量,与现有模型相比本模型较为轻量。实验结果表明本文提出的方法在参数量极少的情况下能精准地识别人人交互行为。其次,由于深度相机造价昂贵,且受拍摄场景限制,本文使用姿态估计方法从RGB图像中提取二维骨架数据,RGB图像可由廉价的传统相机拍摄得到。而针对现有的实时姿态估计方法应用到视频中时,由于运动模糊、姿态变化等情况导致关节点漏检的问题,本文提出一种基于光流的关节点跟踪算法,利用实时光流网络提取的时间上下文信息对关节点跟踪,同时将检测结果和跟踪结果进行融合得到最终结果。实验结果表明,本方法能有效地弥补视频中漏检的关节点,保证了关节点检测的连续性。同时,用本方法提取的骨架较现有姿态估计方法提取的骨架在行为识别任务中也取得了显著的提升。综上所述,本文提出的轻量型人人交互行为识别方法占用极少的存储和计算资源,并且在深度相机和传统相机上均能够达到很好的识别效果,具有十分重要的研究和应用价值。