论文部分内容阅读
随着科技的迅猛发展和信息化时代的到来,图像描述生成任务在跨模态内容检索、人机交互、机器人导航等研究领域和电子商务、儿童教育等应用领域具有深远的研究意义和广阔的应用价值。传统的图像单句话描述生成模型由于单句话涵盖能力有限具有细节描述缺失和个体偏差的问题,密集字幕生成模型由于分立短语关联性弱具有物体间关系缺失和无法高效人机互动的问题,故本文将研究重点放在段落级的图像描述生成上,旨在解决上述问题,生成细节丰富且自然连贯的段落级别描述。同时,针对现有段落生成模型存在的多样性与连贯性差的问题,本文改进了双阶段训练策略。
首先,模型在第一阶段进行单词级别的训练,训练使用交叉熵损失,目标在于产生准确的单词。为了对第二阶段的训练提供一个不太弱的基线模型,本文提出了对潜在重复元组的惩罚策略,改进了解码器结构,实验证明该策略可以有效降低完全重复的冗余句子被模型生成的概率,提高段落在元组层级的多样性。
然后,由于第一阶段单词级交叉熵损失在原理上存在的损失-指标不匹配问题和曝光偏差问题且段落多样性问题尚未得到根本解决,本文在第二阶段引入并改进了基于强化学习的自我批评的序列级训练策略,提出了对更受人类关注的文本质量评价标准:多样性和连贯性的建模方法,引入真实段落中的单词级权重和元组级分布改进现有方法,使得建模方式更贴近人类共识,并将建模后的多样性和连贯性奖励与图像描述生成任务专用的自动评价指标CIDEr结合起来共同融入训练过程,直接引导模型产生多样且连贯的段落描述。
最后,本文设计了一系列系统实验证明所改进的模型和所提出的多样性与连贯性建模方法的有效性。实验证明,模型在图像段落描述通用标准数据集上测试的6个通用自动评价指标中有4个超越现有最优模型。
首先,模型在第一阶段进行单词级别的训练,训练使用交叉熵损失,目标在于产生准确的单词。为了对第二阶段的训练提供一个不太弱的基线模型,本文提出了对潜在重复元组的惩罚策略,改进了解码器结构,实验证明该策略可以有效降低完全重复的冗余句子被模型生成的概率,提高段落在元组层级的多样性。
然后,由于第一阶段单词级交叉熵损失在原理上存在的损失-指标不匹配问题和曝光偏差问题且段落多样性问题尚未得到根本解决,本文在第二阶段引入并改进了基于强化学习的自我批评的序列级训练策略,提出了对更受人类关注的文本质量评价标准:多样性和连贯性的建模方法,引入真实段落中的单词级权重和元组级分布改进现有方法,使得建模方式更贴近人类共识,并将建模后的多样性和连贯性奖励与图像描述生成任务专用的自动评价指标CIDEr结合起来共同融入训练过程,直接引导模型产生多样且连贯的段落描述。
最后,本文设计了一系列系统实验证明所改进的模型和所提出的多样性与连贯性建模方法的有效性。实验证明,模型在图像段落描述通用标准数据集上测试的6个通用自动评价指标中有4个超越现有最优模型。