论文部分内容阅读
本文研究如何提高现有基于短语的统计机器翻译系统的性能,并利用文中提出的思想实现面向特定领域的统计机器翻译系统.文中研究了两种改善基于短语的统计机器翻译系统性能的方法,并结合在通用领域和特定领域的应用给出了实验结果,同时实现了一个面向特定领域的统计机器翻译系统.
文中通过定义多种特征,利用单纯形算法实现了对统计机器翻译系统的翻译结果的重排序(rerank);同时还提出了一种人工定义翻译模板规则的泛化方法,以及翻译模板的匹配算法和翻译模板规则与统计机器翻译系统的融合策略;并基于上述两个思想,辅以记忆库、词典等常用技术,开发了一套面向专利领域的汉英统计机器翻译软件.取得主要成果有以下几方面:1、统计机器翻译中判别重排序算法的实现和特征的选择判别重排序(discriminative reranking)就是指针对某个评估标准对机器翻译程序输出的多个翻译候选结果进行重新排序,重新选择,从中选择出使该标准达到最优时的翻译结果.文中基于实验室开发的基于短语的统计机器翻译系统一孔夫子(Confucius)系统,实现了利用单纯形算法(SimplexAlgorithm)进行重排序,定义了多种特征,像英语的语言模型特征,句子序列的词性语言模型特征等,实验表明,无论是在开发集还是在测试集上,无论是在国际评测中的通用集合上还是在特定领域的测试集合上,BLEU值都有比较明显的提高,重排序过程对孔夫子统计机器翻译系统的整体性能的确起到了促进的作用.2、融合了翻译模板和统计机器翻译技术的翻译方法当前,主流的基于短语的统计机器翻译技术对于句子中短语间的长距离调序问题以及句子中非连续的固定搭配的翻译等问题,解决的都不是很理想,而传统的规则方法在这方面则具有一定的优势,因此,我们提出了在统计机器翻译系统中融合翻译模板规则的翻译方法,我们提出了书写人工翻译模板规则的泛化方法,以及翻译模板的匹配算法和翻译模板与孔夫子统计机器翻译系统的融合策略.我们利用传统中药领域的语料重新训练了孔夫子系统,并从语料中抽取出一部分作为开发集和测试集,实验结果表明,翻译模板规则的加入和使用使得系统的BLEU值有较大幅度的提高,并且比较好地解决了句子的长距离调序问题和句子中非连续固定搭配的翻译问题,一定程度上提高了孔夫子统计机器翻译系统的性能.3、面向专利领域的统计机器翻译系统--专译家系统以实验室开发的孔夫子统计机器翻译系统作为翻译的解码核心,加上上述两种性能改进的方法,同时辅以记忆库、词典等模块,我们开发了基于服务器一客户端模式的汉英统计机器翻译软件--专译家系统(TransAngel),该系统为用户提供了方便的操作界面,用户可以动态地添加自定义模板,词典等来指导和校正翻译结果,同时可以进行后台的批量文件翻译.