论文部分内容阅读
翻译检索被认为是机器翻译与信息检索技术的结合。机器翻译讨论如何用计算机将一种自然语言翻译为另一种自然语言。信息检索返回与用户查询相关的文档信息。传统翻译检索方法一般基于双语语料库实现,译文效果十分依赖于双语语料的规模与质量。本文将翻译问题视作为检索问题,解决传统方法双语料库构建代价高的问题,同时寻求适用于提高译文质量的检索模型算法,提高最终译文的流畅性。通过将信息检索技术与基于短语的统计翻译方法融合,构建一个基于单语料的汉英译文推荐系统,接收中文查询,以界面的形式返回参考译文。系统主要包括查询翻译和信息检索两部分。查询翻译根据给定的一组中文,生成Nbest英文结果;信息检索评价目标译文查询与候选译文的相关性。本文主要讨论汉译英的翻译方法,其中采用的技术亦可类比运用到其他语言中。所做的主要工作如下:第一,设计并实现了一个基于短语的统计机器翻译系统。借助ICTCLAS2011对原始中文语料进行预处理,并借助GIZA++完成词对齐工作。采用对数线性模型进行多特征训练,最小错误率函数迭代优化特征权重的估计,最后完成解码,实现BLEU自动测评。基于4元文法模型的汉英数据集实验结果表明,本系统在基于短语的翻译表现上拥有很强的竞争力,与目前流行的统计机器翻译系统相比,取得了更优的BLEU指标。第二,以Apache Lucene为基础,改进了检索模型算法。使用基于向量空间模型构建基准检索算法,计算查询语句与候选文档的相似度。考虑到N-best结果与候选译文的词序一致性,将基于阈值Levenshtein距离加入检索评分,提出了一个优化检索模型。实验表明优化后的检索模型使得检索子系统返回的排序结果更合理。第三,结合查询翻译子系统与检索子系统,提出了基于单语料与融合检索技术的译文推荐算法,并以此构建了融合检索技术的译文推荐系统,系统综合两部分子系统概率得分,根据分值高低给出最终的排序参考译文。实验取得了最高70.83%的f测度值。