论文部分内容阅读
目前,统计机器翻译成为机器翻译研究热点,统计机器翻译以大规模双语语料作为训练素材,采用参数训练方法得到翻译模型。为了提高翻译效果,人们尝试对统计机器翻译的各个步骤进行改进。仅语料预处理就包含很多值得研究的问题。本论文就其中三个问题进行了研究分析,这三个问题分别是:1)双语句对语料准备统计机器翻译需要大量句子对齐语料作为训练语料。收集整理高质量的双语语料是一项必不可少的工作。本论文利用段落对齐辅助句子对齐方法,将篇章对齐的双语语料整理成句子对齐形式,并对已有的句对齐语料进行过滤,删除错误对齐句子。2)中文分词对翻译结果影响如何处理中文分词在涉及到中文信息处理的很多领域都有较深入的讨论。但在统计机器翻译中,中文分词如何影响统计机器翻译结果却一直没有定论。本论文利用不同的方法对实验语料进行分词处理,并利用这些分词后的语料进行翻译训练,进而比较不同分词方法的翻译结果。实验结果发现,在统计机器翻译中,中文分词的翻译结果好于不分词的结果;分词的歧义并不是影响翻译结果的重要因素;加入命名实体识别的分词对翻译结果影响不稳定;分词的颗粒度与分词的一致性对统计机器翻译质量影响较大。3)词对齐对翻译结果影响人们曾一直认为词对齐的质量对统计机器翻译结果会造成直接的影响。最近的一些实验却发现词对齐质量的提高对统计机器翻译结果质量的提高很少或者没有提高。为了考察词对齐对统计机器翻译的影响,本实验对19209对句子进行了人工词对齐,并利用人工对齐语料进行统计机器翻译实验,比较人工对齐与自动对齐的结果。结果发现,在统计机器翻译中,词对齐的质量对翻译结果有很大的影响,对齐的越准确,翻译结果越好;另外对齐的颗粒度也会影响的翻译质量。实验中,综合比较分词与词对齐对统计机器翻译的影响程度,结果表明:词对齐对统计机器翻译的影响要大于分词对统计机器翻译的影响。