论文部分内容阅读
搭配是人们在使用语言的过程中,所形成的一种固有的语言现象。搭配表现了词汇之间的内在联系,而这种词汇间的联系可以帮助人们更好地使用和理解语言。近些年来,有很多学者针对搭配获取展开研究,并尝试将其应用到机器翻译、自动分析等自然语言处理任务中去。由于搭配是自然语言中非常普遍的现象,构成搭配的词汇允许自由组合,搭配在不同的语种中又有不同的表达方式等诸多原因,搭配研究也面临着很大的挑战。随着自然语言处理技术的不断发展,搭配研究受到了越来越多的关注。目前,搭配研究主要包括两大内容:其一是搭配自动获取,即从预处理过的文本数据中,自动抽取高质量的搭配资源;其二是搭配应用,包括词汇间的相似度计算、自动翻译中的译文选择、依存分析中的词对关系估计等。本文的主要研究内容覆盖了以上两个方面,首先,尝试借鉴统计词对齐的思想,在不利用额外资源和预处理的情况下,直接从文本数据中进行搭配资源自动获取,在此基础上,本研究提出一系列方法把搭配资源应用到机器自动翻译方法上,从多个角度提高不同类型的机器翻译系统的性能。本研究的主要内容包括以下几个方面:1.基于单语统计词对齐方法的搭配获取研究。搭配是自然语言处理任务中的基础资源之一,近些年来,很多搭配获取技术被相继提出。在充分借鉴前人研究的基础上,本文提出利用单语统计词对齐方法来自动获取搭配资源。该研究的意义不仅是提出了更有效的搭配获取方法,而且还针对获取的搭配资源构造了统计搭配模型,为搭配资源在机器翻译中找到了新的应用方式。同时也为搭配资源在其他自然语言处理任务中的应用提供了参考和借鉴。2.基于单语搭配资源的双语词对齐优化方法。双语词对齐是基于语料库机器翻译方法中的关键技术之一,自动获取的双语词对齐质量会直接影响翻译系统的译文质量。但是目前的双语词对齐研究主要集中在源语言和目标语言之间的对应关系上,而本研究从源语言或目标语言句子中词汇之间的关系入手,通过估计词汇间的搭配强度来判断句子内部的词组是否适合作为一个整体来对齐,以此来约束双语词对齐中的多词单元的对齐,从而提高了双语词对齐的效果。3.基于词汇间的搭配关系的翻译模型的优化方法。翻译模型是统计翻译方法的基础资源之一,其质量对于翻译效果具有显著影响。翻译模型的过滤和压缩一直是目前的研究热点。本研究提出了利用句子中词汇间的搭配关系描述了词组内部词汇之间及和内部词汇与上下文间的关联程度,进而利用这种关联程度估计了词组作为一个翻译单元的可能性。在基于短语(包括层次短语和连续短语)的统计翻译系统中增加了对短语的评价之后,可以有效区分翻译短语的质量及提高待翻译短语和待翻译句子之间的匹配度。4.基于搭配信息的统计翻译系统的译文调序改进方法。从1993年第一次提出统计翻译方法至今,译文调序都是统计翻译领域中的难点,人们已经陆续提出了词汇模型、位置模型、甚至句法模型来尝试提高译文调序效果。与以往研究方法不同的是,本文通过观察源语言搭配词汇与对应的译文之间的位置关系,提出来通过对源语言搭配词汇对应的译文顺序进行预测,以此约束译文的相对位置,进而改善译文片段在候选译文中的顺序。5.利用统计搭配模型改进基于实例的机器翻译方法。基于实例的机器翻译方法是机器自动翻译的主要方法之一,已经在很多领域翻译中取得了成功的应用。本研究从三个角度重新审视了基于实例的翻译方法的核心问题:实例选择、译文选择及译文一致性。然后利用统计搭配模型有效解决了这三个问题:首先,利用统计搭配模型估计待翻译句子与翻译实例之间的匹配度,从而增强系统的翻译实例选择能力;然后,通过引入候选译文与上下文之间搭配强度的估计来提高系统的译文选择能力;最后,使用统计搭配模型检测翻译实例中被替换词的搭配词,同时根据新的替换词及上下文对搭配词进行矫正,进一步提高译文质量。实验结果表明,本文提出的方法有效提高了EBMT系统的译文质量,人工评价结果显示,改善后的译文能够表达原文的大部分信息,并且具有较高的流利度。总之,本文一方面致力于搭配资源的别样获取,另一方面,又尝试将获取的搭配资源或搭配模型,从不同角度应用到机器翻译方法中去。本研究取得了一些初步的研究和试验成果,希望这些成果能对本领域的其他研究人员有一定的借鉴价值和参考意义。同时,随着自然语言处理的各项基础技术的不断完善,以及对大规模甚至超大规模语料处理能力的不断增强,相信搭配研究会在未来取得更大的突破。同时,搭配相关技术的研究不断深入,也必将促进其他相关研究的发展。