论文部分内容阅读
信息时代发展至今,更为方便、智能的生活方式越来越受到大众欢迎。其中人工智能技术就是实现这一生活方式的重要途径。而作为人工智能的重要分支,人体动作识别在很多研究和应用领域都有着不可或缺的作用,如人机智能交互、视频监控以及行为分析等领域。在基于视觉的人体动作识别研究中,可以用以识别动作类别的数据模态包括RGB、深度图像和骨骼点数据,每种模态所提供的动作信息也是不同的。例如RGB数据可以提供动作的外观信息、深度图像数据可以提供动作的深度信息。每个模态提供的信息很可能与其他模态信息互补。在此理论基础上,本文设计并构建了多模态信息互补网络,充分利用了RGB数据和深度数据的互补信息。同时,视频数据有着其他类型数据所不具备的长范围时间信息,有效的利用该信息既可以增加识别精确度,又可以提升识别效率。此外,对于传统动作识别算法在相似动作类别中识别率下降的问题,通过可视化实验分析,将相似动作分为子动作共享现象的相似动作类别和有其他物体影响的相似动作类别。并就这两类相似问题分别利用子动作划分和目标检测网络辅助的方法予以解决。在识别效率不变的前提下,提升了最终的动作识别准确率。具体工作如下:第一,提出了一种基于运动能量的多模态信息互补网络模型架构。该网络同时利用RGB数据提供的丰富的外观特征信息和深度数据提供的深度信息以及对亮度、观察角度鲁棒性的特点。通过两种模态的信息互补特性完成多模态的融合。此外,为了更好的对长范围时间结构建模,同时考虑到具有子动作共享现象的动作类别,采用了能量引导的视频分割方法。而在特征融合阶段,又提出了跨模态的十字融合方式,通过连接多个卷积层的特征图谱,使得卷积网络不仅在浅层中可以共享两个模态的局部特征,还可以在深层次的卷积层中获得全局特征的融合。该算法在NTU-RGB+D数据集中进行验证,得到了较好的识别率。第二,提出了一种由目标检测网络辅助的动作识别算法。针对传统的动作识别算法在有其他物体影响的相似动作类别中的识别率下降问题。并考虑到人类在识别有其他物体影响的相似的动作时,会判断与人体有交互关系的其他物体来辅助进行最终动作的识别这一事实依据。利用目标检测网络对于物体类别检测方面的优势,通过对与人体有交互的物体种类的识别,辅助动作识别算法进行有物体影响的相似动作的最终判别。同时,为了将两个识别任务不同的网络更好的结合并发挥出各自的优势,避免因引入目标检测网络而造成两种网络输出结果不同导致的动作类别判断错误的问题,设计了网络融合策略模块,不仅保证了类间差距较大的动作类别的准确率,而且在识别有其他物体影响的相似动作类别时取得了较好的效果,并提升了最终的动作识别精度。