论文部分内容阅读
基于视频的双人交互行为识别是机器视觉重要的研究方向,其在智能安防、视频内容检索等方面具有广阔的应用前景。基于RGB视频的人类交互行为识别由于其缺乏维度信息,难以适应复杂环境下光照或背景等干扰问题,导致其对于复杂交互行为识别的准确率不高。为了弥补RGB视频的缺点,本文采用RGB和深度信息融合的方法对双人交互行为识别进行深入的研究:首先,针对基于RGB视频序列的双人交互行为识别缺乏深度信息,对复杂多变的交互动作识别不够准确的问题,本文提出一种融合深度信息的个体分割信息和RGB整体信息的双人交互行为识别算法,该方法在RGB视频信息源上采用基于整体的方法对动作视频进行表示;在深度视频信息源上通过YOLO网络结构对交互的双人进行个体分割,然后对分割的个体使用视觉共生矩阵对视频中属于每个人相关联的兴趣点进行特征描述送入分类器进行分类,最终将两个信息源进行融合。该算法易于实现,可操作性强,且识别率得到大幅提高。其次,针对双人交互行为识别算法普遍基于视频的传统特征描述,其算法存在计算复杂度高且识别准确率相对较低等问题,针对该问题提出一种基于RGB和深度视频双流融合的深度学习网络结构模型,利用卷积神经网络完成对图像序列空间特征的提取与矢量化,将获得的矢量信息输入长短期记忆网络单元进行时序建模。训练过程中将RGB视频和深度视频数据流单独送入各自网络训练交互行为网络模型,将网络模型获得的类别概率矩阵分别送入softmax进行融合获得最终识别结果。本算法相比传统算法识别率得到大幅提高。最后,针对卷积神经网络不能专注行为识别的局部空间突出信息,在上面研究的基础上,提出了一种基于注意机制卷积的RGBD双人交互行为识别算法。该算法利用注意机制卷积自动提取动作子类的显著局部关节特征,将该特征与长短记忆神经网络相结合,完成对视频的动作行为特征表示与时序建模,取得较好的识别效果。该算法准确率相比卷积算法识别率没有大的提升,但是其训练收敛速度快,震荡幅度小,容易趋于稳定,具有重要的现实意义。