论文部分内容阅读
随着互联网的高速发展以及移动设备的高度普及,每天都有成千上万的多模数据产生,比如文本、图像和视频。通过人工对海量视频进行筛选分类费时费力,几乎难以完成,因此视频分类任务已成为深度学习计算机视觉领域中一个重要的子任务。视频动作分类任务作为视频分类任务中的重要的一环,大多数视频记录的都是作为社会活动主体人的活动,不论是从安全、娱乐还是个人存档的角度,对其中的动作识别进行研究具有重要的学术和应用价值,而如何高效建模动作视频、实现有效地视频动作分类是该任务的核心课题。并且随着这类多模数据量的增多,如何高效搜索也变成了一件十分困难的事情。因此除了对这些多模数据进行高效建模之外,还要考虑不同模态数据之间的异构性差异,这无疑也是一件十分具有挑战性的任务。本文将基于深度学习方法对视频动作分类任务以及跨模态检索任务分别展开了如下的研究:(1)针对传统视频动作分类方法中使用三维卷积核而导致的参数量过大的问题,本论文设计了一种新的通道分离方案,并构建了一个轻量级的视频模型以高效、有效地完成视频分类任务,该模型可以学习三种特征信息,包括二维空间结构、一维时间结构和三维时空结构特征,并且在模型构建中并行处理这三种特征。在两个常用的视频分类数据集上的实验结果也显示了STS模型在保证轻量地前提下,实现了较好的分类精度。在SSV1数据集上,该模型的准确度要高于R(2+1)D模型11.7%(35.0%→46.7%),高于C3D模型0.5%(46.2%→46.7%)。(2)针对传统使用视频注意力机制的研究主要集中采用特定的上下文信息来细化视频特征,导致这些模型并不能完整地利用上下文信息,对于模型的性能提升较为有限的问题,本论文提出了一种用于元素特征细化的有效注意力方法。后续实验实施在多个常用视频分类数据集上,并且均达到了领先水平。例如在SSV1数据集上Top-1准确率达到了55.0%,高于STS模型7.3%(46.7%→55.0%)。(3)传统跨模态检索方法中使用随机初始化的方法进行训练,这样的模型往往收敛较为缓慢,并且结果较为中庸。针对上述问题,本论文提出了一种基于预训练方法的跨模态检索模型,并使用该模型探索如何有效地对跨模态数据进行建模以及检索。后续实验也证明了该模型的有效性,在GEM-Ven"数据集上平均召回率指标达到了93.33%。