论文部分内容阅读
近些年来,随着互联网和多媒体技术的飞速发展,数字资源正处于指数式的增长状态,数字视频作为数字资源中的重要组成部分,已经进入人们生活的方方面面,如何对这些数字视频中的人体行为进行快速准确的分类,成为了人们研究的热点。本文针对上述问题展开,主要目标是通过深度学习中的卷积神经网络技术提取视频中的人体行为的时间特征与空间特征,实现对视频中的人体行为快速准确地分类。论文主要工作与成果如下:(1)针对卷积神经网络在使用高质量视频时产生的巨大计算量问题,本文提出了一种双流残差网络(Twostream-ResNet,TS-ResNet)用来进行人体行为识别。该算法首先使用残差网络构造了空间识别流和时间识别流的双流网络结构来提取视频中的空间特征和时间特征,然后将这两个特征融合后送入分类器分类,最后通过实验分析验证TS-ResNet增加了网络的深度并提高了识别的准确度,同时降低了算法的时间复杂度。在UCF101和HMDB51数据集上分别进行实验,结果表明,与人工特征中表现最好的iDT算法相比,TS-ResNet在UCF101数据集上要高0.35%,而在HMDB51数据集上提升了5.6%。与传统卷积神经网络算法VLAD vector相比,TS-ResNet在UCF101数据集上要高2.05%,而在HMDB51数据集上提升了6.4%。(2)针对传统残差网络中获得的特征鲁棒性不够的问题,提出了一种深度融合残差网络(deep fusion ResNet,DF-ResNet)。该算法抛弃了传统残差网络中的极深层网络,使用了更多的中层深度网络,增加了融合次数,提升了潜在的基础网络组合数目,从而提高了整体网络的性能。实验分析验证提出的DF-ResNet能够提供比传统的残差网络更高的准确度。将DF-ResNet在UCF101和HMDB51数据集上实验,结果表明,与传统残差网络相比,DF-ResNet在两个数据集上的准确度分别提高了0.6%和1%。(3)在上述算法的基础上,为了进一步利用时间因素,本文提出双流深度融合残差网络(Two stream deep fusion ResNet,TDF-ResNet),将深度融合残差网络扩展到TS-ResNet结构中来对视频中的人体行为进行识别。与提出的TS-ResNet相比,实验分析验证TDF-ResNet更加有效地利用了时间信息,从而提供更高的准确度。实验结果表明,与提出的TS-ResNet相比,TDF-ResNet在两个数据集上的准确度分别提高1.25%和0.4%。