论文部分内容阅读
在智能监控、高级人机交互、自动标注、三维游戏、医疗诊断等方面,人体动作识别的研究具有广泛的应用前景及潜在的经济价值。由于人体动作的多样性、场景嘈杂、摄像机运动视角多变等特性,导致人体动作识别的难度增加。因此对基于视频的人体动作识别算法进行研究,有着重要的现实意义。本文主要研究基于深度学习的人体动作识别算法,具体研究内容如下:对于人体动作识别问题,首先从特征提取方面介绍非深度学习的算法与深度学习的算法,介绍了深度学习的相关知识,详细阐述了深度卷积网络及其优势;其次从分类器方面介绍了基于时序特征的分类器与基于固定维度特征的分类器,阐述了softmax分类器的优势。针对长时循环卷积神经网络算法(LRCN)在时序学习结构上的冗余以及算法运行时间较长的问题,本文首先详细介绍了长时循环卷积网络算法,然后阐述了门限循环单元训练周期较短与收敛速度较快的优势,提出将长时循环卷积神经网络的长短时记忆单元替换为门限循环单元进行改进,并通过softmax分类器得到分类结果。实验表明该改进在一定程度上提高了人体动作识别的准确率,缩短了运行时间。针对基于姿态卷积神经网络算法(P-CNN)不能更好地表征高层动作信息以及运行时间较长的问题,本文首先详细介绍了基于姿态卷积神经网络算法,然后详细阐述了卷积、池化参数对人体动作识别问题的影响,提出一种基于3D深度卷积神经网络结构的人体动作识别方法。以连续的16帧视频为一组,采用视频图像的灰度、x方向梯度、y方向梯度、x方向光流、y方向光流做多通道处理,有效地训练网络参数,经过5层3D卷积、5层3D池化增加提取特征中时间维度的动作信息,最终通过两层全连接与softmax分类器得到识别分类结果,并利用尺度不变特征描述子与运动历史边缘图像作为辅助特征进行规则化。通过与i DT、P-CNN、LRCN三种典型算法比较,实验结果表明,本文提出的方法识别准确率更高,且运行速度更快。