论文部分内容阅读
机器翻译是自然语言处理领域的一个重要研究方向。在现有英汉机器翻译系统中,长句分析是一个研究难点。随着信息技术的发展,单词量巨大、结构复杂的专利或科技长句已广泛出现在人们的日常工作中。如何对这些长句进行合理且有效的翻译成为现有机器翻译技术亟待解决的难题。本文采用长句切分的方式对英语长句进行分析,以提高英汉机器翻译中长句的翻译质量。为了实现长句的合理切分,本文提出了两种基于规则的算法。第一种算法基于正则匹配,结合句子的词性标注信息来完成长句的切分。首先,通过句子成份的合并达到“减少”句子中单词个数的目的,为后续切分过程提供便利。其次,识别并列子句对句子进行第一次切分,切分的句子包括转折句、因果句、条件句等,这些子句都是相对独立的句子,便于机器翻译系统分别进行处理。最后,识别从句对句子进行第二次切分。从句识别后,长句主干会变得更为简洁,显著简化句子的结构。然而,第一种算法中存在的诸如规则覆盖率低、所用特征少、深度依赖句子词性等缺陷影响了算法的应用,因此本文提出了另一种基于错误驱动的英语长句切分算法。该算法首先合并句子中影响切分的成分和一些简单短语,以减少切分错误的数量;然后利用天然切分点对长句进行初步切分,包括并列句的切分和从句的切分;最后,本文总结了不同的错误情形,并利用大量语言学特征(包括片断长度、片断语法结构等)制定规则,对切分错误进行识别和修正。在NTCIR-9专利语料上的实验证明了两种英语长句切分方法的有效性。为了验证长句切分对机器翻译的作用,本文将切分结果应用于谷歌在线翻译平台,两种切分方法分别使译文的BLEU值提高了4.42%和11.26%。