论文部分内容阅读
人体动作识别在智能视频监控、基于视频的内容分析与检索、人机智能交互、虚拟现实以及医疗看护等领域中有着广泛的现实应用前景。人体动作识别技术是计算机对视频或者图像序列中的动作行为提取出具有辨别能力的特征进行动作分类识别的技术。卷积神经网络(Convolutional Neural Network,CNN)是一种仿生神经网络,通过利用分层非线性变换无监督地从低层特征中自动学习高层特征来实现数据的高层抽象,解决了动作识别任务中特征的提取对任务本身的依赖,和传统的人工定义特征手工提取特征的动作识别方法截然不同。本文重点研究构建不同的人体动作识别模型,使其不但能从背景中检测出运动目标,而且对动作的多样性变化(如同一个动作在不同场景下的差异表达或者是不同个体对同一个动作表达的姿态差异以及动作的部分遮挡等)具有鲁棒性。本文主要完成了以下几个方面的研究工作:(1)在Bag-of-feature词袋中心选择的K均值(K-Means)聚类算法中加入轮盘赌算法进行改进。提取Harris-Laplace时空兴趣点及3D-SIFT(Scale Invariant Feature Transform)描述子,通过Bag-of-feature构建词袋,利用改进的K均值算法进行聚类,最后进行多分类支持向量机(Support Vector Machine,SVM)人体动作分类识别。对基于时空兴趣点的传统人体动作识别方法中的聚类算法加入轮盘赌算法进行改进,使得类簇之间比较分散,实现提高动作识别的准确率。(2)将ImageNet图像分类任务中的批归一化(Batch Normalization)思想应用到动作识别领域。构建批归一化与GoogLeNet网络相结合的网络结构。将卷积神经网络训练中的卷积层输出特征数据进行批归一化算法处理操作,再输入到下一层网络中。相对于传统的卷积神经网络在训练算法以及网络结构两个方面进行改进,从而提高动作识别准确率。(3)利用上述改进后的卷积神经网络结构构建时空网络。空间网络通过视频帧的RGB图像来获取运动的外观信息而时间网络则是通过连续帧间的光流场来捕获运动信息,最后将时空网络融合,这样既考虑到外观信息又关注到运动信息,实现提高动作识别准确率的目的。(4)针对动作视频的时序性,构建一个26层的三维卷积神经网络模型。将传统的卷积神经网络中的二维卷积拓展成三维卷积,直接对输入的视频数据或者图像序列进行三维卷积操作,提取连续多个动作视频帧的时空运动信息。