【摘 要】
:
在移动互联网,大数据的时代背景下,智能终端的普及与社交网络的发展,使得互联网多媒体数据呈现爆发式增长,以往完全依赖人工对多媒体数据进行标注和描述成为一项不可能的任务,利用计算机对多媒体数据进行描述成为必然趋势。本课题针对现有算法对视频语义描述准确率低等问题,主要研究基于深度学习和特征融合的视频语义描述方法,并从可行性、可靠性角度对深度网络模型进行相关验证,主要贡献如下:(1)针对传统的视频语义描述
论文部分内容阅读
在移动互联网,大数据的时代背景下,智能终端的普及与社交网络的发展,使得互联网多媒体数据呈现爆发式增长,以往完全依赖人工对多媒体数据进行标注和描述成为一项不可能的任务,利用计算机对多媒体数据进行描述成为必然趋势。本课题针对现有算法对视频语义描述准确率低等问题,主要研究基于深度学习和特征融合的视频语义描述方法,并从可行性、可靠性角度对深度网络模型进行相关验证,主要贡献如下:(1)针对传统的视频语义描述方法在开放域视频精度不高,无法适用于大规模数据集的问题,相关学者开始研究基于深度学习的视频语义描述方法。本文第三章提出一种基于PNASNet二维图像特征和C3D时空特征的端到端视频语义描述方法。首先通过一个用渐进式网络结构搜索算法搜索得到的卷积神经网络PNASNet提取视频的图像特征,用C3D网络提取视频的动作信息,然后将图像特征和动作特征融合并输入一个由GRU门控循环单元构建的编码器-解码器模型,最终构建为一个端到端视频语义描述模型。该模型使用MSR-VTT开放域视频数据集进行训练,并用BLEU、ROUGE、METEOR、CIDEr四种指标进行评价,发现该模型精度显著优于传统方法。但是由于模型过于简单,当视频场景过于复杂时生成的描述质量较差,导致算法的鲁棒性不高。(2)针对第三章提出的模型鲁棒性不高的问题,本文的第四章提出了一种基于注意力机制的视频语义描述方法,通过注意力机制的加入,提高复杂视频的翻译质量。此外,本章引入了一种基于时空图卷积的时空特征,首先提取人体骨骼关键点构建拓扑图,然后使用时空图卷积网络提取局部动作信息,并与图像特征进行融合,最终与加入注意力机制构建一个端到端视频语义描述方法。实验证明,通过时空图卷积得到的动作信息相比C3D有更好的效果,同时注意力机制的加入,使得模型对复杂视频的描述能力大幅提升。但是更改之后的模型复杂度大幅提高,需要耗费很长时间进行数据预处理及模型训练,此外提取视频图像特征时,本文第三章第四章均采用等间隔采样法,容易造成信息的冗余,耗费不必要的计算资源。(3)针对本文第三章、第四章中视频采样策略的缺陷,本文第五章引入了一种基于深度强化学习的视频摘要算法,通过构建一个编码-解码模型,使用强化学习进行训练,并构建了一种新的视频摘要奖励函数使得模型可以无监督学习。通过视频摘要算法对视频进行采样,减少视频数据量同时可以保留所有关键信息,有效的减少了视频语义描述模型的计算量。此外,考虑到视频中不仅有图像信息,还包含音频信息,本章提取了音频信息的MFCC特征,然后进一步使用卷积神经网络提取更深层次的音频特征,并与图像特征动作特征进行融合,最终完成一个融合音视频特征的视频语义描述方法。通过视频摘要算法和音频信息的加入,模型的描述能力进一步获得了提升。
其他文献
近几年来,我国火柴行业总产量逐年下降,利润逐年减少,亏损逐年增加,不少企业破产、转产、停产、半停产,企业处境艰难,不少人对火柴行业的形势和出路发表了看法。第一种认为
目的通过建立SD大鼠梅尼埃病的动物模型,检测血清脂蛋白(a)和内耳组织单核细胞趋化蛋白-1(MCP-1)的表达,探讨这两种蛋白在梅尼埃病中的表达及意义。方法1动物分组及处理:选取健康的SPF级别的白色SD大鼠30只,体重为150250g±10g之间,实验前观察所有大鼠可见大鼠活动敏捷、耳廓反应灵敏、听觉灵敏度均正常,然后将此30只大鼠随机的分为正常组(n=10)、生理盐水(对照组)(n=10)和梅
为回收利用矿藏热采过程中产生的低温余热蒸汽,提出利用有机朗肯循环(ORC)系统进行热力发电。以自主研制的对流热采油页岩低温余热发电实验系统参数为依据,选用5种环保工质,
教师书面修正性反馈是写作教学的重要环节,一直备受学界的关注。尽管国内外学者进行了大量的研究,但对于教师书面修正性反馈是否有效这一问题仍然没有定论。而且,目前关于教师书面修正性反馈的研究主要集中于英语教学领域,对外汉语教学领域的相关研究相对缺乏,其中针对书面修正性反馈有效性的实证研究更是屈指可数。本研究以注意假说、输入假说和互动假说为理论基础,运用文献研究、实验研究和访谈等研究方法,旨在检验“错误位
分别介绍了美国加州交通局和广州市负责交通基础设施建设与管理的机构、职能以及近年来的成就。比较了两种管理体制在工程建设、产品开发等事件上的运作机制和过程。由此提出
随着糖业生产规模的不断扩大,工业锅炉的增容成了糖业技改的新方向。通常,锅炉通过改造后,增容的目的是达到了,但锅炉在燃烧工况方面仍存在许多问题,文章就锅炉改造后存在的
医院门诊属于社会窗口,是直接关系到患者、患者家属、社会对医院整体印象的桥梁,随着人们生活水平及生活环境的变化,人们对医疗服务质量的要求越来越高,医院门诊导诊护士成为
随着我国社会主义市场经济体制的逐步建立,如何更有效地加强金融监管,防范信贷风险,已成为经济金融界关注的热点。人民银行总行借鉴发达国家中央银行信贷登记系统的成功做法
随着人们生活的日益改善,所接触的事物不断增加,近年来人们对于产品包装的美观性要求越来越高。所以在受市场影响企业竞争不断加剧的今天,企业除了满足产品安全的基础条件,还要满足消费者更高的需求。在各个灌装类产品生产企业中,灌装贴标设备是必不可少的生产设备。其主要实现包装贴标的快速、自动化生产,特别是随着PLC、变频器等技术在设备的应用,使设备的服务范围不断的扩展。随着大量设备在相关行业的使用投入,企业在
目的:探讨骨科护理管理中采用亲情-责任交互式护理的作用。方法:根据随机数字表法将2017年86例骨科患者分为对照组和观察组,每组各43例;对照组采用常规护理;观察组在对照组的