论文部分内容阅读
组块的概念最初是在认知心理学中提出的,并在信息处理理论和通用智能系统中得到应用。它又被推广到计算语言学领域中,用“分而治之”的策略来解决问题,对自然语言进行组块计算。本文中对组块的计算,不仅包括组块分析,还涉及到对组块相似度计算的研究。完全的句法分析是当前自然语言处理中的一个难点和重点。一方面我们既要达到语法分析的目的,另一方面还要降低分析过程中的难度。因此针对这种局面,进行部分的句法分析,即组块分析。本文的目标就是在这种背景下,从理论、算法和应用三个方面来讨论汉语组块及其分析方法和技术。本文首先指出当前语法分析的困难,而组块分析是一条解决问题的途径。并介绍了组块分析的研究现状,以及组块分析的两条技术路线。提出了汉语组块分析任务的重要性和可行性。随后总结了界定组块的各种方法,在前人工作的基础上对汉语组块进行了定义。同时组块库的获取和收集也是一项迫切的任务,由于不易直接获取具有组块标注的语料,当前大多组块语料库是通过转化现有树库获得。本文实验所用的组块库是从宾州大学中文树库中抽取而来的。根据组块定义,结合现有语料的实际,本文定义了12种汉语组块类型,和分析过程中所用到的组块标注符号。我们实现组块分析的系统是采用统计与规则相结合的路线。统计方法首次采用了成熟的数学模型——最大熵模型进行汉语组块的识别和划分。最大熵模型具有简洁、通用性和可移植性等特点,能灵活地选取特征,同时可以把计算模型和语言模型作为独立的模块处理,而不必关心语言内部的细节。规则方法采用了有限自动机来完成组块分析的任务,有限自动机实现简单、效率高,也具有较高的组块标注正确率。在两种方法并用的基础上,加入了错误驱动的基于转换的机器学习方法,根据系统标注语料和正确标注语料相比较的结果,不断学习和反馈,生成转换规则集合,用于基于混合模型的标注系统中。特征集合的选取是最大熵模型的关键问题所在,它选取合适与否决定了组块标注结果的好坏。因此在本文中针对汉语组块的划分和识别,提出了词、词性标注、语法标注和词音节数是构成组块划分的主要影响因素,并根据这几种因素来确定最大熵模型的特征空间,从中自动获取组块分析的有效特征集合。我们所采用的基于混合模型的组块分析方法,不仅利用了现有的技术,而且有效地结合了两种方法的优势,达到较为满意的组块划分和识别效果。文中给出了各种模型的实验步骤和结果,并进行了分析。同时指出系统目前些微的改进都是不易的,需要大量工作来完成。本文在最后提出了汉语组块相似度计算的方法,和双语组块相似度计算的设想。基