【摘 要】
:
视频字幕生成技术是利用计算机模型为视频中的特定目标和场景生成相应文本标注的技术。它涉及到对物体、人物、场景、事件、时间关系和其他许多方面的理解。最近几年,国内外的研究方法主要集中在将注意力机制施加在不同模态上并将这些模态在同一层次上进行融合。然而,此类方法在融合的过程中并没有考虑具体模态之间的区别和联系。本文围绕解决模态融合不完善和不同模态特征表述不精良等核心问题,提出了一种基于层次型注意力的模态
论文部分内容阅读
视频字幕生成技术是利用计算机模型为视频中的特定目标和场景生成相应文本标注的技术。它涉及到对物体、人物、场景、事件、时间关系和其他许多方面的理解。最近几年,国内外的研究方法主要集中在将注意力机制施加在不同模态上并将这些模态在同一层次上进行融合。然而,此类方法在融合的过程中并没有考虑具体模态之间的区别和联系。本文围绕解决模态融合不完善和不同模态特征表述不精良等核心问题,提出了一种基于层次型注意力的模态融合方法。且本文还利用基于RPN(区域建议网络)的全卷积语义分割模型提取视觉特征,消除背景特征冗余。并通过CNN+RNN网络学习高级语义标签之间的关系从而提高语义模态特征的准确性。本文的主要研究工作如下:本文重点研究了如何训练全卷积语义分割网络来标注区域建议特征中的目标区域,通过一对一的坐标映射在目标特征中找到相应特征区域,组合生成最终的特征矩阵。文中的视觉特征提取方法不仅能够解决背景特征冗余问题,还可以弥补基于注意力方法中的特征映射分割对于对象完整性破坏的缺陷。实验证实本文提出的基于全卷积语义分割的视觉特征提取方法在多个测评标准上都比传统方法高出1.5%-2%的效果。本文利用CNN+RNN框架来实现视频的多标签提取任务。通过循环神经网络(RNN)对于时序的敏感性,模型能够有效的学习视频中不同标签之间的联系,并提高生成高级语义信息的质量。实验证实将本文中利用CNN+RNN框架学习的高级语义标签作为模型的高级语义特征,可以使模型效果提高1%-2%。本文将传统注意力机制和多模态融合技术作为基础,提出了一种层次型注意力的模态融合方法。通过分层处理不同的模态信息解决了传统单层模态融合方式存在的无法有效区分不同模态区别和联系的不足,最终达到提高视频字幕生成质量的目的。实验证明,本文提出的层次型注意力的模态融合方法能够生成更加准确的视频字幕,在BLEU和CIDER等评价标准上均高出传统模态融合方法1%-1.5%。除了上述对于算法模型的创新之外,本文还完成了以下几项重要的工作。首先,通过数据的收集和整理来提供足够的训练集和验证集样本。其次,利用机器学习框架对文中所提出的几种算法模型进行编码实现。然后,将整理出的训练集样本输入完整的算法模型中进行训练和调参。最后,将整理出的验证集样本输入训练好的模型当中进行性能的测试。
其他文献
电力供应稳定和电力设备安全是保障经济和社会生活运行的重要条件。锈蚀会引起电力设备故障,影响电力系统的安全运行。但目前电力设备锈迹检测方式仍以人工检查为主,成本高、效率低,且不能及时反馈。因而如何便捷高效的检测出各种电力设备中锈迹所在的位置,减少因锈迹产生的故障损失及次生损失,是当前保障电网系统安全运作亟待解决的问题。近年来,深度学习技术在图像处理领域取得了突出成果,但由于电力设备上锈迹大小不一、形
随着生物信息学的爆炸式发展,蛋白质组学的研究进入了后基因组时代。蛋白质亚细胞定位预测研究作为蛋白质组学的热点问题和重要内容,对于研究人类某些疾病的发病原理和药物设计等具有重要指导意义。本文针对蛋白质亚细胞定位预测准确率难以得到有效提升这一问题,研究了基于深度学习算法融合的蛋白质亚细胞定位预测方法,并结合序列数据特点进一步讨论了基于定位位点生成蛋白质序列问题,本文的主要研究内容如下:首先,针对传统的
随着经济技术的迅速发展,人们经济消费水平的提高,越来越多的人选择乘坐飞机去异地。旅客人数大量增长,携带旅行包的数量也急剧增加,由此产生的不正常行李增多。目前机场工作人员采用传统的手工登记行李信息的工作方式,已经不能适应当前现代大企业的工作需求。因此,有必要设计开发一个机场行李管理系统实现行李的信息化管理。为解决目前机场对不正常行李管理的遇到的工作量大、效率低下的问题,实现行李的信息化管理,本文查阅
据统计超过90%的电力系统事故由电力设备故障引起,其中超过50%的故障设备在早期阶段出现异常发热症状。及时排除隐患是保证电力系统安全稳定运行的必要条件。红外热成像技术探测并接收目标表面的红外辐射能量,经处理后获得目标表面温度分布状态,因此十分适用于电力设备的热故障检测。深度学习可以从大量的数据中自动学习样本特征,但其计算复杂度高,对计算资源要求较高,嵌入式设备有限的计算资源,使其部署深度学习模型成
通过对六氟化硫(SF_6)分解组分特征气体的在线检测,可以初步诊断SF_6气体绝缘设备早期的绝缘故障。目前的检测方法中比较有效是气体传感器技术。本文将基于石墨烯、聚苯胺等材料的新型气敏传感器,引入到SF_6气体绝缘设备故障分解组分气体的检测研究中,利用自主搭建的动态配气检测装置测试不同传感器对硫化氢(H_2S)气体的气敏特性,并基于复合材料间的异质结等角度研究分析传感材料的气敏传感机理。针对SF_
随着信息时代的飞速发展,互联网上的信息呈指数倍增长,如何高效地从众多互联网信息中获取人们所需要的信息,是目前急需解决的问题。机器学习领域的网页分类技术可以对网页进行分类归纳,帮助人们有效地提取和利用互联网上的海量信息。在众多网页分类算法中,基于支持向量机的多示例多标签学习框架因其出色的学习能力,成为机器学习领域的一个研究热点。本文介绍了网页分类的流程、相关技术,阐述了多示例多标签学习框架和支持向量
肺癌是世界上发病率与死亡率增长速度最快的肿瘤疾病之一,70%~80%的肺癌病人一经发现多属中晚期,此时多数患者的病变部分已无法手术切除,虽然可通过放疗和各种化疗方案进行治疗,但晚期肺癌的预后极差,平均生存时间少于12个月。因此,早期发现肺部病变以提高完全切除率(ROI切除),对于提高肺癌患者存活率意义重大。计算机辅助诊断系统(CADe)的应用很大的提高了早期结节诊出率。但由于现有的传统的CADe方
现实生活中,人们面临的绝大多数的优化问题都可以归类为多目标优化问题。单目标优化可以找到唯一的最优可行解,与单目标优化不同的是,多目标优化问题需要在一组Pareto解集中,找到可以使各个子目标尽可能达到最优的解集,在各个子目标之间保持平衡。粒子群优化算法作为一种群智能算法,因形式简洁,参数设置灵活,操作简便易行,快速收敛的同时能一次产生多个解,从而在求解多目标优化问题中被广泛应用。但是,也存在收敛速
在以信息技术为代表的科学技术迅猛发展的潮流下,自动化设备正朝着响应快、精度高的方向发展。多轴自动化设备在运行过程中,会产生单轴运动的跟踪误差和多轴联动的轮廓误差,这两种误差尤其是轮廓误差直接影响了设备的运动轨迹。轮廓误差是衡量多轴进给系统高精度高速加工性能的重要指标,如何在面向大曲率快速的连续轨迹运动中保持着微小的轮廓误差是当前多轴运动控制系统中亟待解决的难题。轮廓误差控制一直是高精度高速加工系统
随着国内互联网的崛起,计算机网络之间的通信已经成为当今社会必不可少的一个环节。互联网的发展给人们生活以及工作带来了极大的便利,同时,信息安全问题也随之暴露。木马则是危害网络通信安全最大的隐患之一,运用木马技术对网络系统进行入侵是黑客最为常用的手段,以此来窃取个人和企业的关键信息,破坏网络资源,对人们的生产生活等各个方面造成严重的危害。因此,对木马程序进行深入的研究有助于改进木马的检测方法,对防范木