论文部分内容阅读
视频理解在人机交互、视频分类、自动驾驶等领域拥有广阔的应用场景,利用深度学习进行智能视频分析的方法逐渐受到重视。神经网络在图像方向上的成功为解决视频理解问题尤其是人体动作识别问题提供了思路。在现实场景下光照、背景、相机运动等条件多变,采用手动提取特征进行动作识别的鲁棒性不好,使用深度学习方法对于数据适应性更强。采用深度学习进行人体动作识别的方法中,双流卷积神经网络通过将RGB图和提取的光流堆分别输入到空间流卷积神经网络和时间流卷积神经网络中提取特征进行分类,存在用于特征提取的卷积神经网络深度较浅的问题,且使用深层网络模型在较小数据集上训练会出现过拟合现象。与此同时,从视频中采样单帧图像和单堆光流帧的方式缺乏长段时间建模,忽略了视频局部时间段特征的相关性和时序性,且在利用动作识别数据集训练过程中没有考虑多种样本不平衡的因素对训练结果的影响。本文的主要研究工作如下:(1)针对时空双流卷积神经网络模型特征提取模块网络层次较浅的问题,选择使用更深网络层次的神经网络以提取更有效的特征,引入残差网络模块,防止网络过深造成的退化现象,提出一种基于时空双流残差网络的人体动作识别方法(Spatio-temporal Two-stream Residual Network,STRN),方法中针对数据量较少,易过拟合的情况,先进行数据增强,然后采用将残差网络在ImageNet上预训练的模型迁移到人体动作识别任务,为时空双流残差网络初始化权值,使用更低的学习率进行学习,实验表明采用这种训练方式的深度残差网络提取特征能够在任务上取得更优的效果。STRN方法在UCF101数据集上取得了92.7%的识别准确率。(2)针对时空双流残差网络人体动作识别方法中采样时未针对时间进行建模的问题,提出一种基于时序特征融合的人体动作识别改进方法(Temporal Feature Fusion Spatio-temporal Two-stream Residual Network,TFF-STRN)。按照时序分段采样得到双流深度残差网络的输入RGB图和光流图,将每个时序分段采样输入到深度残差网络中得到时序分段特征,将外观特征按照时间顺序级联融合,再输入到多层感知机中学习得到空间分类特征,这种方式增加了空间流分段特征的时序信息,得到的特征更有效,时间流卷积神经网络平均深度残差网络输出的分段运动特征得到运动分类特征,同时引入一种带有调节因子的分类损失函数,降低易分样本对总损失的贡献,使模型关注于难分样本,解决训练过程未考虑数据集中样本数量、分类难易差异的问题,实验证明使用时序特征融合的TFF-STRN方法在动作识别数据集UCF101上的准确率达到94.1%。(3)设计并实现了一个运动短视频分类系统。通过该系统用户拍摄剪辑或选择符合要求的运动类短视频上传到后端,后端接收视频后使用人体动作识别算法对视频分类,自动为不同运动类型的视频打上相应类别的标签进行存储,将结果告知用户,同时该系统还提供按照分类查看所有用户上传的运动视频的功能,并能在首页展示用户关注类别最新上传的视频。通过本系统,用户能够无需手动分类快捷地上传视频,方便地搜索和浏览自己感兴趣类别的运动类短视频。