论文部分内容阅读
图片描述翻译任务是通过机器翻译系统,将图片源语言端描述翻译为目标语言。图片描述都是以短文本为主,无法为翻译系统提供足够的上下文信息。因此,如何将图片信息更好的融入翻译系统,从而解决跨模态信息融合问题是该任务的重点。本文从统计机器翻译、神经机器翻译出发,集中研究具有较强适应性的图片描述翻译优化方法。在统计机器翻译中,本文针对语料中的歧义词问题,通过图片主题信息对翻译模型进行优化;在神经机器翻译中,本文通过优化图片特征对语言特征学习的支持性作用提高翻译系统的性能。本文集中研究图片描述翻译的模态适应性,具体内容包括以下三个方面:(1)融合图片主题信息的翻译模型优化方法通用领域翻译模型不能准确进行歧义词翻译,针对该问题,提出一种基于图片主题信息优化翻译模型方法。该方法旨在从大规模图片-文档对应的语料中挖掘相似于图片内容的文档集合,借以分析图片的主题信息,进而将图片主题信息融入统计机器翻译系统中的翻译模型,这一过程有助于加强翻译系统的领域自适应能力,提高系统的性能。实验结果表明,相比较于基准系统,这一方法在测试集上提高0.74个百分点。(2)图片描述翻译中面向主题优化的关联语句抽取方法针对图片主题分析中的噪声问题,提出了一种抽取相关上下文的方法,以及其用于优化图片主题分布的方法。该研究旨在从图像匹配过程中获得的文档集合内获取紧密相关于图像的句子集合或者段落。利用获得的段落或者句子集合分析图片的主题分布,进而将其融入统计机器翻译系统中的翻译模型,用以加强翻译系统的领域自适应能力。实验结果显示,本文所提优化图片主题分布的方法能有效提高系统性能,相比于基准系统,BLEU值提升了 1个百分点。(3)多通道多模态图片描述翻译在神经机器翻译中,针对图片特征不适应于序列化任务的问题,提出了一种多通道多模态图片描述翻译方法。该方法利用预训练的图片描述生成系统优化图像分类模型输出的图像特征,进而将优化后的特征用于初始化翻译系统编码器的隐状态、解码器的隐状态以及加入至编码-解码注意力机制,从而提高神经图片描述翻译系统的性能。实验结果表明,本文所提的方法能有效利用图片特征,并且在Multi30k-16、Multi30k-17以及Ambiguous coco数据集上超过基准翻译系统,在最优情况下BLEU值提高6个百分点。本文着眼于解决图片描述翻译中的模态适应性问题。在统计机器翻译方面,本文针对歧义词问题,尝试使用领域适应性的方法解决多模态信息融合问题;在神经机器翻译方面,本文针对图片分类特征不适用序列化任务的问题,提出了多通道多模态翻译方法,着重在解码层解决多模态信息融合问题。本文通过分析实验性能以及翻译样例,证明了上述方法在解决模态适应性问题上的有效性。