论文部分内容阅读
计算机视觉是人工智能中一个重要的组成部分,而人体行为识别作为计算机视觉领域的热门研究方向,受到了越来越多人的关注,具有广泛的应用前景。近年来,随着深度神经网络的发展和计算机运算能力的提升,深度学习已经成为解决计算机视觉领域问题最重要的手段。其中,卷积神经网络在静止图像上的识别与分类上取得了巨大成功,但是对于视频中的行为识别问题却无法体现出其明显的优越性。目前的行为识别方法主要有双流法,三维卷积法和基于人体骨架的方法等,但都存在各自的优缺点,比如双流法虽然识别率较高,但是特征来源是视频帧的整个图像信息,对人体行为的关注度不够,所以识别率一般针对特定数据集而言;三维卷积法虽然模型简单,实时性好,但是识别率不足;基于骨架的方法优势在于剔除视频中的其他信息,只关注人体运动,提取的特征虽然少但更具有针对性和说服力,缺点是提取的骨架并非完全精准,导致这类方法识别率普遍较低。因此,本文针对上述问题,研究通过融合人体骨架和视频图像信息的行为识别方法,在保留基于骨架方法对动作的针对性的同时,通过与图像信息结合,提高行为识别的准确率。首先本文从行为识别的研究背景及其在人工智能大环境发展中的理论研究意义和现实应用前景出发,介绍了该研究方向目前在国内外的研究现状和存在的问题。其次,对基于时空图卷积模型(Spatial Temporal Graph Convolutional Networks,ST-GCN)的行为识别进行了研究。时空卷积模型利用图卷积对单帧骨架中各个节点间的关系进行处理,时间卷积学习相邻帧之间相对应节点随时间的变化特征。通过OpenPose姿态估计算法提取视频中的人体骨架,由多帧骨架图构造骨架时空图模型作为输入,运用端到端方式进行网络训练。利用UCF-101数据集进行模型训练和测试,并构造一个UCF-31特殊数据集与其进行对比实验,验证时空图卷积模型在骨架提取效果好的情况下展现出良好的识别性能。之后通过实验对比分析时空图卷积模型相比较光流法的优势所在,验证了在视频亮度变化的情况下光流法识别精度大大下降,而时空图卷积模型的识别效果几乎不受影响,具有较好的鲁棒性。最后,根据双流法的思想将基于人体骨架信息的时空图卷积模型和基于视频图像信息的卷积模型进行融合,搭建了一个具备骨架流和图像流的新双流模型。首先,对基于图像信息的行为识别进行了研究。传统的二维图像卷积由于动作在视频中的跨越较大,随机提取一帧往往不足以代表整个动作的关键特征,因此行为识别表现一般。借鉴时间片段网络的稀疏采样策略,对每个输入的视频进行分段和随机采样帧,形成稀疏视频帧,共同决定识别结果。基于图像的行为识别对场景信息的提取更加丰富,而这正是基于人体骨架的行为识别的弱项,因此根据双流行为识别的思想,采用晚融合的方法将基于人体骨架的行为识别与基于图像的行为识别这两个模型进行合并,构造出一个新的双流模型。通过实验验证本文提出模型的有效性,并与其他行为识别方法进行对比,分析模型优劣性。