论文部分内容阅读
人体动作识别因为其广泛的现实应用前景,成为图像处理、计算机视觉、机器学习等领域的研究热点,但仍然是一个具有挑战性的课题。在人脑视觉机理的启发下,深度学习的提出使得机器学习取得突破性的进展,也为人体动作识别的研究带来了新的方向。深度学习基于一系列算法,通过分层非线性转换无监督地获取数据的高层抽象。不同于传统的识别方法手工提取特征,深度学习能够自动地从低层次的特征中学习出高层次的特征,解决了特征选取过于依赖任务本身和调整过程耗费时间等问题。本文重点研究在复杂场景下的人体动作识别及运动视频中时空特征的提取问题,克服环境差异和时间变化给识别造成的困难。本文在研究深度学习典型模型卷积神经网络和深度置信网络的基础上,提出了具有创新性的人体动作识别模型。 本文的具体研究工作如下: (1)研究了复杂场景下RGB图像中人体的动作识别问题。卷积神经网络由于局部权值共享和池化的特殊结构,对于特定的姿态、光照、环境杂乱变化均具有不变性,在图像处理方面具有天然的优越性。因此,本文提出一个改进的卷积神经网络模型,提取2D图像序列中的动作特征,并经过softmax回归进行分类。其中,为了更有效的预训练卷积核权值,本文还利用卷积自动编码器替代传统的后向传播算法进行初始化工作。试验表明该模型有效地解决了复杂场景下动作识别问题,较传统方法具有更高的识别率。 (2)针对运动视频中的时空特征进行研究。为了使识别方法更具实用价值,本文提出了一个多分辨率的3D卷积神经网络模型。在保留高分辨率的原始输入流的前提下,增加一个包含动作的低分辨率输入流,形成一个新的双流3D卷积神经网络框架。这样既能够利用3D卷积核提取连续视频帧中的时空信息,又加快了网络的运算速度。实验证明,此方法无需任何先验信息取得了和传统算法相近的结果。 (3)前两个研究点均为基于RGB图像序列的特征提取方法,第三个研究点则提出了一个基于RGB-D视频数据的识别模型。该模型通过传感器Kinect获取深度图像序列,并进行一定处理获取低层时空信息,再通过一个金字塔型的深度置信网络模型进行高层特征表示。其中,辅以改进的限制波尔兹曼学习算法,较本文之前的算法极大地减小计算量。实验表明较其他优秀方法,本文的方法更具有效性和鲁棒性。