论文部分内容阅读
统计机器翻译是以大规模双语平行语料为基础,充分利用计算机较强的计算能力,通过统计分析,构建翻译模型、语言模型、调序模型,进而利用此模型进行翻译的自动化技术。目前,统计机器翻译系统的性能很大程度上依赖于训练语料的规模和质量。训练语料的规模越大、质量越好,则有效的翻译知识越多,涵盖的语言现象也越充分,从而有助于提升系统中模型的训练效果。然而,当面向特定领域的翻译任务时,机器翻译系统的性能往往偏低。原因在于通用领域翻译系统无法针对特定领域的翻译知识、句子表达方式、语言风格做出自适应调整。基于此,本文集中研究统计机器翻译领域自适应问题,并提出解决此类问题的新方法,主要研究内容具体归纳如下:1)特定领域平行语料库构建这一研究旨在从Web上自动挖掘特定领域平行资源,构建目标领域平行语料库。在大规模Web数据中,特定领域的双语知识往往集中出现于所属领域的双语网站内,并以较为规范的结构化数据形式一一对照,有助于特定领域双语知识的获取和组织。本文针对双语网站的识别和定位,提出一种基于全局搜索和局部分类的特定领域双语网站识别方法。以电子器件领域为目标,采用全局搜索方法获得该领域双语网站18,944个,随机抽取其中3,000个网站进行人工标注,在标注语料上,采用局部分类方法识别该领域双语网站的性能(F值)达到85.19%。在此基础上,利用识别出的目标领域双语网站中的双语句对,扩充特定领域机器翻译系统的训练集进行实验。实验结果表明,相同测试集下,特定领域机器翻译系统的性能获得显著提升,验证了本文所提自动识别特定领域双语网站方法的有效性。2)领域相关的双语句对选择本文从句对领域相关性的角度,在大规模通用领域平行语料库中选择和扩充面向特定领域翻译任务的双语资源,借以提升特定领域机器翻译系统的性能。句对的领域相关性表示其与目标领域的相似程度,领域相关性越大说明句对属于目标领域的可能性越大,对于特定领域翻译任务贡献越大。本文提出一种基于双语主题模型的领域相关句对选择方法,其核心思想为:利用双语主题模型挖掘句对中隐含的浅层语义信息,并在主题与领域之间构建词级和句子级映射,进而更好地估计句对的领域相关性。实验结果显示,利用本文所提方法选择双语句对并训练翻译系统,相比于基准系统,在测试集上平均提升1.64个BLEU值(%)。3)融合领域特征的翻译模型优化上述研究内容为统计机器翻译领域自适应方法的研究提供了较好的思路。本文这一部分研究,尝试从模型的角度,探索统计机器翻译的领域自适应问题。此研究致力于构建短语对或是层次短语对之间,在特定领域中的互译度评价标准,即在模型的角度考虑领域性影响。最终,利用此特征动态调整系统中翻译模型的参数,使之更好地适应目标领域,获得翻译性能的提升。本文提出一种基于卷积神经网络的翻译模型优化方法,该方法首先借助卷积神经网络估计短语所在双语句对的领域相关性,其次利用此相关性重新估计短语对的互译概率,最终通过线性融合通用领域和特定领域翻译概率,进一步优化面向特定领域翻译任务的系统性能。实验结果表明,相比于基准系统,利用此方法优化后的系统在测试集上平均提升2.9个BLEU值(%)。综上所述,本文针对统计机器翻译的领域自适应问题,在语料库构建、领域相关的句对选择和翻译模型优化三个方面进行探索,分别提出了基于全局搜索和局部分类的特定领域双语网站识别方法、基于双语主题模型的领域相关句对选择方法和基于卷积神经网络的翻译模型优化方法。并进一步由实验验证了上述方法的有效性和可行性,最终搭建了本地基于层次短语的领域自适应翻译系统。