论文部分内容阅读
机器翻译因其速度快和成本低的特点被视为克服不同语言之间沟通障碍的重要手段。近年来随着深度学习的发展,基于“编码器—解码器”架构的神经机器翻译已经成为主流的机器翻译研究方法。但由于词汇表大小受限和覆盖机制的不完善,神经机器翻译往往存在未登录词问题、过度翻译和漏翻译问题。针对未登录词问题,提出基于“替换—翻译—恢复”框架的数据泛化方法。首先,确定语料中拟处理的未登录词种类并设计双语未登录词的识别对齐算法;其次,将训练语料和测试语料中的未登录词替换为特定的泛化标志符,利用泛化后的语料进行模型训练和译文预测;之后,采用基于词典和规则的方法对未登录词进行翻译;最后,利用未登录词的翻译结果替换神经机器翻译模型输出译文中的泛化标志符得到最终的翻译结果。实验结果表明,数据泛化方法能够显著提升神经机器翻译模型的翻译质量和未登录词的翻译准确率,在RNNSearch和Transformer模型上BLEU值分别提升了4.72%和4.21%。在Transformer模型上,未登录词的翻译准确率平均提升了35.16%。为了缓解神经机器翻译中的过度翻译和漏翻译问题,基于不同覆盖模型存储信息的一致性和互补性,提出利用覆盖向量和覆盖分数同时指导注意力机制的多覆盖融合模型。首先定义词语级覆盖分数概念,之后利用覆盖向量和覆盖分数存储的两种翻译历史信息同时指导注意力分数的计算。根据覆盖向量和覆盖分数的融合方式提出层次多覆盖模型和平行多覆盖模型两种实现方法。实验结果表明,多覆盖融合模型能够提升神经机器翻译的译文质量。与其他覆盖模型相比,词对齐质量及过度翻译和漏翻译问题得到进一步改善。