基于深度学习的视频动作分类方法及跨模态检索方法研究

来源 :武汉邮电科学研究院 | 被引量 : 0次 | 上传用户:a76s333
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的高速发展以及移动设备的高度普及,每天都有成千上万的多模数据产生,比如文本、图像和视频。通过人工对海量视频进行筛选分类费时费力,几乎难以完成,因此视频分类任务已成为深度学习计算机视觉领域中一个重要的子任务。视频动作分类任务作为视频分类任务中的重要的一环,大多数视频记录的都是作为社会活动主体人的活动,不论是从安全、娱乐还是个人存档的角度,对其中的动作识别进行研究具有重要的学术和应用价值,而如何高效建模动作视频、实现有效地视频动作分类是该任务的核心课题。并且随着这类多模数据量的增多,如何高效搜索也变成了一件十分困难的事情。因此除了对这些多模数据进行高效建模之外,还要考虑不同模态数据之间的异构性差异,这无疑也是一件十分具有挑战性的任务。本文将基于深度学习方法对视频动作分类任务以及跨模态检索任务分别展开了如下的研究:(1)针对传统视频动作分类方法中使用三维卷积核而导致的参数量过大的问题,本论文设计了一种新的通道分离方案,并构建了一个轻量级的视频模型以高效、有效地完成视频分类任务,该模型可以学习三种特征信息,包括二维空间结构、一维时间结构和三维时空结构特征,并且在模型构建中并行处理这三种特征。在两个常用的视频分类数据集上的实验结果也显示了STS模型在保证轻量地前提下,实现了较好的分类精度。在SSV1数据集上,该模型的准确度要高于R(2+1)D模型11.7%(35.0%→46.7%),高于C3D模型0.5%(46.2%→46.7%)。(2)针对传统使用视频注意力机制的研究主要集中采用特定的上下文信息来细化视频特征,导致这些模型并不能完整地利用上下文信息,对于模型的性能提升较为有限的问题,本论文提出了一种用于元素特征细化的有效注意力方法。后续实验实施在多个常用视频分类数据集上,并且均达到了领先水平。例如在SSV1数据集上Top-1准确率达到了55.0%,高于STS模型7.3%(46.7%→55.0%)。(3)传统跨模态检索方法中使用随机初始化的方法进行训练,这样的模型往往收敛较为缓慢,并且结果较为中庸。针对上述问题,本论文提出了一种基于预训练方法的跨模态检索模型,并使用该模型探索如何有效地对跨模态数据进行建模以及检索。后续实验也证明了该模型的有效性,在GEM-Ven"数据集上平均召回率指标达到了93.33%。
其他文献
学位
美国FDA于2020年12月18日批准Myovant科学公司(Myovant Sciences)新药Orgovyx(relugolix,瑞卢戈利,CAS登记号737789-87-6)用于成人治疗晚期前列腺癌,这也是FDA批准的第1种治疗前列腺癌的口服激素类药物。据美国癌症协会(The American Cancer Society)估计,在2020年美国共有约190 000例前列腺癌。
期刊
学位
涂装是汽车生产中较为重要的一道工序,水性免中涂工艺以其自身所具备的诸多特点,被应用于汽车涂装中。为使该工艺得到进一步推广,文章从汽车涂装水性免中涂工艺的原理及特点分析入手,详细论述了汽车涂装水性免中涂工艺要点,期望能够对汽车涂装水平的提升有所帮助。
学位
学位
2001年12月11日,中国正式加入WTO并成为重要成员。入世20年来,中国坚定维护多边贸易体制,货物贸易、服务贸易开放水平不断提升,市场准入不断放宽,贸易便利化政策层出不穷,推动货物贸易、服务贸易、双向投资等开放型经济发展取得历史性成就,并为世界经济做出了重要贡献。文章对入世以来中国开放水平、开放型经济发展水平及其与发达国家差距进行了分析,并在总结中国快速发展经验的基础上,提出了以入世20周年为
为挖掘未来高比例可再生能源电力系统中的各种频率调节资源,利用降压节能技术,提出了一种基于分布式光伏和ZIP负荷的“源-荷”协调的频率控制方法。通过ZIP负荷近区光伏的频率-无功下垂控制,实现了并网节点电压调整,间接控制了ZIP负荷的有功消耗,具备本地快速响应特性和灵活调节能力。改进的IEEE 14节点系统仿真算例结果验证了所提方法的有效性和优越性,为提升高比例可再生能源电力系统的频率调控能力提供了
学位
做好财务管理工作对事业单位社会经济职能的实现有重要影响,如何提高财务管理水平是事业单位的重要管理工作。本文主要对当前事业单位财务管理的现状进行了分析,结合事业单位的事业情况,有针对性地提出了事业单位财务管理的优化措施。