【摘 要】
:
图像字幕生成就是根据输入图像生成一段内容描述语句,该任务涉及图像处理方法和自然语言处理方法。近年来随着互联网的发展和大规模数据的出现,深度神经网络凭借着强大的数据
论文部分内容阅读
图像字幕生成就是根据输入图像生成一段内容描述语句,该任务涉及图像处理方法和自然语言处理方法。近年来随着互联网的发展和大规模数据的出现,深度神经网络凭借着强大的数据拟合能力在多个研究领域获得了巨大的成功。在此背景下,将深度学习方法应用于字幕生成任务逐渐成为图像字幕生成研究领域中主流的方法。在已经提出的方法中,算法优化的重点大多集中于对图像特征的处理,然而仅仅通过优化图像特征质量只能提升生成文本与图像关键信息的紧密度,而缺乏了对生成文本本身的优化,无法让生成的文本更加符合自然语言的使用标准。一方面,对于图像字幕生成过程中存在的文本准确性和连贯性不足的问题,本文提出一种基于长短时间隔优化的图像字幕生成方法。该方法使用深度神经网络提取图像特征,将图像关键信息以特征矩阵的形式表示并结合图像标注字幕作为LSTM循环单元的输入。在字幕生成过程中,使用长时间隔优化模块和短时间隔优化模块共同优化生成文本的质量。其中长时间隔优化模块由长时间隔优化器和激励判别器两部分组成,通过对抗训练的方式对生成文本的质量进行优化。短时间隔优化模块则以监督学习的方式对生成文本进行优化,通过约束生成文本在短语和单词上的使用使得网络最终生成的图像字幕更加准确且连贯。实验证明,本文提出的基于长短时间隔优化的图像字幕生成方法有效提升了生成字幕的准确性和连贯性,在多个评价指标上的得分均取得了一定的提升。另一方面,根据人类在日常生活中对自然语言的使用习惯,图像字幕应该具有多样性的特点,而现有的方法缺乏对字幕多样性的优化。为此,本文提出一种基于对抗训练的图像字幕多样性优化方法。该方法首先使用字幕生成模块生成多个批次的字幕,计算对应同一张图片的多个批次字幕之间的差异,即组内差异,通过模型训练扩大组内差异增加生成字幕的多样性。接着,依据生成式对抗网络的结构特点,在字幕判别模块的判定过程中加入组间差异因素以引导字幕生成模块的参数更新。最终通过实验对比分析验证了基于对抗训练的图像字幕多样性优化方法在将字幕准确性保持一定水平的条件下有效增强了生成字幕的多样性,使生成的字幕更加接近人类标准。
其他文献
MEMS(Micro-Electro-Mechanical System)组合导航系统因为具有成本低、重量轻、安装维护方便等特点,在军用和民用领域得到了广泛应用。为满足我单位组合导航系统低成本、小型
金属-有机骨架衍生炭(MOF-C)是近年来开发的一类新型炭材料,由于其种类多样、易于掺杂元素等优势,受到广泛关注。磁性炭能通过本身磁性回收,在吸附、催化领域具有巨大的应用潜力,但磁性炭目前还存在磁性物质在炭材料中难均匀分布、易聚集以及比表面积不高等问题。本文以含磁性金属的金属-有机骨架为前驱体制备磁性物质均匀分布、比表面积较大的磁性MOF-C,探究炭化温度、时间对MOF-C的影响,并以MOF-C做
【摘 要】1937年9月油印本《辩证法唯物论(讲授提纲)》是《实践论》最早的版本,中华人民共和国成立后,经毛泽东亲自修改和补充,1950年12月29日,《人民日报》公开发表了《实践论》。此后学术界从不同视角对《实践论》进行研究。对《实践论》的版本搜集整理、校勘、比较研究,可以进一步理解毛泽东哲学思 想的形成、发展与成熟过程;梳理学术界关于《实践论》的思想内容、历史地位、当代价值及其对思想政治教育
加强政治生态建设,首先要做好政治生态分析研判,有病施治、无病强身。"政治生态分析研判就像拍X光片子一样,深入查找‘病源’,深度剖析‘病理’,着力清除‘病灶’。"天津市纪
缢蛏(Sinonovacula constricta),又名蛏子,是我国重要的海水养殖贝类。肾上腺素能受体(adrenergic receptor)是一种G蛋白偶联受体(G-protein coupled receptors),与生物体的生长、内分泌和代谢等生理活动有着密切的联系。本研究通过缢蛏转录组筛选出两个肾上腺素能受体,通过RACE技术获得了两个基因的cDNA全长序列,分析了两个肾上腺素能受
为了满足物联网应用中边缘感知系统信息交互的需求,可以采用传输便捷、功耗较低的近场通信方法。然而,传统的近场通信方法基于电磁波的广播通信,采用广播通信对节点实施在线
底板岩体的稳定性主要取决于底板岩性组合和所处复杂地质力学环境,当煤层底板存在承压含水层时,在采动矿压和水压力的联合作用下,极易造成底板岩体破坏失稳,承压水头沿着底板裂隙逐渐向上扩展导升,当承压水头突破有效隔水层时极易引发突水事故。本文通过理论分析、耦合材料模拟实验、数值模拟和现场实测等手段,对承压水上膏体充填开采防治底板突水机理进行了研究,主要研究成果如下:(1)基于弹性力学和塑性滑移线场理论,对
在定焦摄像头的生产流程中,镜头模组需要调焦在光学焦点处才能流入下一生产环节。而镜头模组定焦的生产模式常为人工手动定焦,需要人眼观察图像是否清晰,调整镜头达到清晰后
沿空放顶成巷技术不仅可以解决采区工作面采掘接续紧张问题,同时可以提高煤炭回采率,增加矿井经济效益。本文以金达煤矿五采区12510工作面为工程研究对象,采用理论分析、数值模拟和工程实践相结合的方法,对薄煤层沿空放顶成巷技术进行研究,主要研究内容及相关成果如下:(1)提出沿空放顶成巷概念,系统的分析了该技术成巷原理、顶板破碎机理及垮落结构特征,总结了影响顶板放落效果的各种因素。(2)研究总结沿空放顶成