论文部分内容阅读
自从计算语言学兴起到现在已经有几十年的时间了,在这几十年里,不少计算机专家、语言学家在自然语言处理领域付出了不懈的努力,许多研究思想和设计方法也应运而生。机器翻译作为自然语言处理领域的一个重要分支,在经过了长期的探索和研究之后,已初步进入应用。随着计算机应用的普及和Internet的高速发展,人们对机器翻译提出了更高的期望,机器翻译研究者和开发人员也面临着更大的挑战。
汉语分析一直是机器翻译研究中的一个难点,研究一种适合于机器处理的汉语分析的新方法有助于今后汉语到其他语种的机器翻译研究。
本论文继承了前人一些行之有效的思想方法,结合汉语自身的特点,提出了一种基于规则的汉语分析方法。
论文的主要工作有:
1.介绍了几类经典的基于短语结构文法的自然语言处理技术,同时对这些技术的各自特点和适用面进行了分析,并指出了它们对汉语分析的指导作用。
2.对汉语的特点进行了深入细致的分析,并系统地整理和归纳了这些特点对汉语分析特别是句法分析带来的难度。提出汉语句法分析系统必须在利用现有成熟的自然语言分析理论和技术的基础上,着重针对汉语分析的特殊困难来考虑系统的设计思路。
3.分析了汉语层次性的特点。提出汉语分析的目标是把汉语句子解析成基于多值标记函数的依存关系树。动词是这棵树的树根,句子的其它成分通过格与其建立关联。树上的节点不仅有词法、句法等表层信息,还携带深层格关系的语义信息。
4.在研究了汉语简单句的格关系的基础上,提出了汉语复句构成的关系格,并通过实例列举了复句格之间的组合模式。同时由于汉语短语和句子在构造上具有一致性,在分析过程中发现其在关系格上也具有一致性。
5.指出了汉语分析基于规则的必要性。采用规则语言的方式对汉语分析规则进行统一描述。规则描述语言提供了包括条件语句、循环语句在内的多种描述语句,规则采用了多行描述,有较强的表达能力。规则类型分为个性规则和共性规则,并对规则的具体功能进行了细分。
6.根据词汇语义驱动的思想,把分析词典设计成参数加上与该词有关i的个性规则的形式。在词汇这一级对分析规则进行了细化,既使用了语法总结出的规则,又兼有基于实例的分析方法优点。在分析过程中可以根据这些个性规则执行特殊的分析动作。
7.在充分认识汉语分析难点基础上,结合经典的计算语言学理论和成熟的自然语言分析方法设计了一个汉语分析系统原型,并取得了较好的效果。同时对系统得到的分析结果进行了仔细、深入的分析。针对规则方法的缺陷提出了以规则为主体,引入其它辅助分析手段的混合策略,从整体上提高汉语分析系统的性能。