论文部分内容阅读
根据相机捕捉的视频序列,让计算机识别人类动作及行为是计算机视觉中及人工智能领域的重要分支。目前,人类动作识别已经被广泛应用于安全监控、互动娱乐、智能家居等多个方面。遮挡、阴影、复杂的背景、相机的抖动、光照的变化、人物与相机的距离远近带来纹理细节的变化、尺度的变化、动作的多样以及不同人所做动作的差异性等是影响识别准确度的主要因素,是目前该领域面临的主要技术难题。目前,深度学习已经广泛应用于图像分类与识别、语音处理、文字翻译、推荐、评价、预测分析等各个领域。然而,在处理连续的视频序列方面,深度学习的优势还并不明显,如何将深度学习更好地应用于人类动作识别是极具潜力的研究方向。本文主要致力于将深度学习与视频的处理有机结合,从而推动人类动作识别技术的进步。卷积神经网络(CNN)是深度学习领域的重要技术,CNN在图像识别方面具有优异的性能,获得了广泛的关注。其最大的优点不仅仅是对图片极高的识别准确率,更在于其不依赖于传统的手工特征,自动从原始图片中学习特征的能力。本文利用CNN对图像优异的识别能力,对CNN应用于动作识别做了积极的探索,所取得的成果如下:1.针对骨骼序列,充分考虑人类动作的空间特征以及时间特征,本文提出了两种将骨骼序列压缩成适于CNN处理的图像的视频压缩方法,分别为骨骼轨迹图、骨骼分布图。并用卷积神经网络对压缩的动作序列进行分类,从而实现动作识别。实验结果表明,本算法在G3D、UTD-MHAD以及MSRC-12数据集上的识别准确率超过了国际上已有的方案。2.针对深度视频序列,本文提出了一个有效的动作识别框架。首先,用面向位移的直方图(HOD)以及狄利克雷混合模型(DPMM)对动作序列进行了分段并赋予视频片段新的标签,其次,利用卷积神经网络对深度动作图(DMM)的分类来生成特征向量,最终利用隐马尔科夫模型与支持向量机共同完成了动作的分类。实验结果表明,该动作识别框架在MSRAction-Pairs数据集上取得了100%的识别准确率,在MSRDaily Activity3D数据集上的识别准确率也接近业内最优方案。3.针对普通的RGB视频序列,本文将整个视频序列的光流特征映射到了一张图片上,并对不同时刻的光流特征赋予了不同的颜色,再利用卷积神经网络对图片的分类来完成动作识别。此外,本文将基于RGB视频序列的动作识别算法扩展到了无人机的人机交互系统中,构建了一套可应用于室外环境的手势识别系统。该系统包含5个无人机控制指令,任意操作者可以通过模仿控制指令动作来方便的控制无人机飞行。在距离无人机5-60m距离范围内,该系统能够保持93%以上的识别准确率,对动作的平均响应时间为0.4s。在识别距离、准确率以及速度方面,均达到国际先进水平。