基于深度学习的图像段落描述生成算法研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:AAAA1234560
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的迅猛发展和信息化时代的到来,图像描述生成任务在跨模态内容检索、人机交互、机器人导航等研究领域和电子商务、儿童教育等应用领域具有深远的研究意义和广阔的应用价值。传统的图像单句话描述生成模型由于单句话涵盖能力有限具有细节描述缺失和个体偏差的问题,密集字幕生成模型由于分立短语关联性弱具有物体间关系缺失和无法高效人机互动的问题,故本文将研究重点放在段落级的图像描述生成上,旨在解决上述问题,生成细节丰富且自然连贯的段落级别描述。同时,针对现有段落生成模型存在的多样性与连贯性差的问题,本文改进了双阶段训练策略。
  首先,模型在第一阶段进行单词级别的训练,训练使用交叉熵损失,目标在于产生准确的单词。为了对第二阶段的训练提供一个不太弱的基线模型,本文提出了对潜在重复元组的惩罚策略,改进了解码器结构,实验证明该策略可以有效降低完全重复的冗余句子被模型生成的概率,提高段落在元组层级的多样性。
  然后,由于第一阶段单词级交叉熵损失在原理上存在的损失-指标不匹配问题和曝光偏差问题且段落多样性问题尚未得到根本解决,本文在第二阶段引入并改进了基于强化学习的自我批评的序列级训练策略,提出了对更受人类关注的文本质量评价标准:多样性和连贯性的建模方法,引入真实段落中的单词级权重和元组级分布改进现有方法,使得建模方式更贴近人类共识,并将建模后的多样性和连贯性奖励与图像描述生成任务专用的自动评价指标CIDEr结合起来共同融入训练过程,直接引导模型产生多样且连贯的段落描述。
  最后,本文设计了一系列系统实验证明所改进的模型和所提出的多样性与连贯性建模方法的有效性。实验证明,模型在图像段落描述通用标准数据集上测试的6个通用自动评价指标中有4个超越现有最优模型。
其他文献
近年来,以机器人为代表的智能制造掀起了世界范围内生产技术领域的风暴。物联网、大数据、云计算、人工智能等信息技术的重大突破,使得机器人的应用范围从工业制造向医疗健康、军事、农业等领域不断扩展。有着中国版“工业4.0”规划之称的《中国制造2025》将机器人产业列入重点战略,但是因为机器人产业涵盖了机械、电子、传感检测、计算机、生命科学等多个学科,对机器人设计提出了较高的要求。  目前,基于知识图谱的问
学位
随着计算机网络控制技术的发展,控制设计人员不仅要解决底层设备的实时控制问题,还要解决上层数据集成管理所带来的综合自动化问题。港口调度与管理是保证港口装卸作业按计划组织实施而进行的一系列部署、指挥、检查、监督、协调和平衡的总称,直接影响企业的经济效益。本文针对我国某内陆港口生产作业环节多,作业流程复杂,建立了散杂货码头和油港码头多资源协同调度优化问题的数学模型,对四种现代启发式求解算法进行了实验研究
随着通信、计算机和人工智能相关技术的发展,以及任务场景复杂度的加深,多智能体(Multi-agent)系统的编队包围控制已经成为了一个热门的研究领域。多智能体的编队包围控制要求智能体的状态保持一致,并且系统对特定感兴趣的目标形成一定的编队队形。目前,基于测量的编队包围控制存在以下问题:忽略了部分智能体不能够测量到与目标间的相对位置信息这种情况。而在该情况下,已有的编队包围控制器难以满足编队包围的要
学位