论文部分内容阅读
机器翻译是自然语言处理领域中的一个重要应用。随着国际交流的频繁和互联网的发展,对机器翻译的需求越来越大。目前机器翻译的研究取得了很大进展,但是同人们的期望依然有相当大的差距。同时,机器翻译中对目标语言生成的研究并不充分,这是一个值得继续深入研究的课题。
本文结合一个具体的日汉机器翻译系统,从基于格语法表示的日语分析结果出发,讨论了汉语生成的问题。主要包括以下几方面的内容:
1.分析目标语言生成应该完成的主要工作以及常见的方法,并在此基础上提出了一种转换和生成一体化的汉语生成策略。在该策略中将转换和生成两个过程融合在一起,可以避免错误的累积放大;同时,能够在目标语生成阶段尽力弥补源语言分析的不足。
2.在基于规则的系统中,规则语言的表达能力和可扩充性是系统的核心问题之一。论文分析了规则描述语言的设计原则,并据此改进了系统中所使用的汉语生成规则描述语言,该规则描述语言具有较强的表达能力。
3.以提高规则描述语言的可扩充性(从而使得整个汉语生成子系统可扩充)为目的,提出了一种基于元规则的规则描述语言解释技术,其中使用了一个自动机模型,该模型有较强的表达能力。文中所述的原则和技术也适用于一般的基于规则的自然语言处理系统。
4.分析了论文中所提出的汉语生成策略和规则系统的效果。并探讨了如何在现有的基于规则的系统中加入基于语料库的方法,主要是处理译词选择问题和确立翻译用的格分类。