基于深度学习的人类动作识别研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:CL87781891
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
根据相机捕捉的视频序列,让计算机识别人类动作及行为是计算机视觉中及人工智能领域的重要分支。目前,人类动作识别已经被广泛应用于安全监控、互动娱乐、智能家居等多个方面。遮挡、阴影、复杂的背景、相机的抖动、光照的变化、人物与相机的距离远近带来纹理细节的变化、尺度的变化、动作的多样以及不同人所做动作的差异性等是影响识别准确度的主要因素,是目前该领域面临的主要技术难题。目前,深度学习已经广泛应用于图像分类与识别、语音处理、文字翻译、推荐、评价、预测分析等各个领域。然而,在处理连续的视频序列方面,深度学习的优势还并不明显,如何将深度学习更好地应用于人类动作识别是极具潜力的研究方向。本文主要致力于将深度学习与视频的处理有机结合,从而推动人类动作识别技术的进步。卷积神经网络(CNN)是深度学习领域的重要技术,CNN在图像识别方面具有优异的性能,获得了广泛的关注。其最大的优点不仅仅是对图片极高的识别准确率,更在于其不依赖于传统的手工特征,自动从原始图片中学习特征的能力。本文利用CNN对图像优异的识别能力,对CNN应用于动作识别做了积极的探索,所取得的成果如下:1.针对骨骼序列,充分考虑人类动作的空间特征以及时间特征,本文提出了两种将骨骼序列压缩成适于CNN处理的图像的视频压缩方法,分别为骨骼轨迹图、骨骼分布图。并用卷积神经网络对压缩的动作序列进行分类,从而实现动作识别。实验结果表明,本算法在G3D、UTD-MHAD以及MSRC-12数据集上的识别准确率超过了国际上已有的方案。2.针对深度视频序列,本文提出了一个有效的动作识别框架。首先,用面向位移的直方图(HOD)以及狄利克雷混合模型(DPMM)对动作序列进行了分段并赋予视频片段新的标签,其次,利用卷积神经网络对深度动作图(DMM)的分类来生成特征向量,最终利用隐马尔科夫模型与支持向量机共同完成了动作的分类。实验结果表明,该动作识别框架在MSRAction-Pairs数据集上取得了100%的识别准确率,在MSRDaily Activity3D数据集上的识别准确率也接近业内最优方案。3.针对普通的RGB视频序列,本文将整个视频序列的光流特征映射到了一张图片上,并对不同时刻的光流特征赋予了不同的颜色,再利用卷积神经网络对图片的分类来完成动作识别。此外,本文将基于RGB视频序列的动作识别算法扩展到了无人机的人机交互系统中,构建了一套可应用于室外环境的手势识别系统。该系统包含5个无人机控制指令,任意操作者可以通过模仿控制指令动作来方便的控制无人机飞行。在距离无人机5-60m距离范围内,该系统能够保持93%以上的识别准确率,对动作的平均响应时间为0.4s。在识别距离、准确率以及速度方面,均达到国际先进水平。
其他文献
通过定义本体中概念之间的语义距离来计算本体概念之间的相似度,提出一种基于该相似度的Web服务的精确匹配算法,新的算法与传统的经典匹配算法(OWL-S/UDDI算法)比较,不仅在等级上保
电子电工课程是中职技术类教育课程中的重要科目之一,在中职电子电工课程教学活动中,传统的教学手段,如借助板书、教具等,无法使学生全面深刻理解课程要点,由此会损害中职电
<正>深圳大约一半的建筑面积是小产权房,超过一半的人口居住在小产权房内2018年7月27日,深圳市政府公布了《关于农村城市化历史遗留产业类和公共配套类违法建筑的处理办法(征
20世纪80年代以来,我国混合所有制经济取得了长足发展,为我国的经济体制改革和国民经济发展做出了重大贡献。党的十八届三中全会通过的"决定"将混合所有制经济的发展提升到了
文章从分析商业银行不良资产的形势入手,借鉴风险偏好,创新性地提出了处置偏好的概念。处置偏好可以帮助商业银行从自身经营管理出发,设定不同时期准确的多元化处置目标,避免