论文部分内容阅读
有标记联合结构的自动识别将为汉语树库的构建做好预处理工作,提高句法分析器的工作效率,同时该识别成果可以直接应用于机器翻译、信息抽取等领域。以往对有标记联合结构的研究大部分是进行理论探讨,少部分的自动识别研究也是针对比较简单的联合结构。本文在为构建汉语树库做好联合结构预处理的前提下,基于大规模语料库用规则和统计的方法分别对有标记联合结构进行了自动识别的研究。统计和分析了有标记联合结构内部和外部的语言学特征,内部特征方面主要考察了联合结构的词性序列分布、短语序列分布、词与短语的序列分布、联合结构的长度分布以及联合结构的联合标记。外部特征方面主要从联合结构的句法功能分布和联合结构左右边界特征词两个方面进行考察。这些考察一方面为计算机识别有标记联合结构提供了语言学知识,另一方为从语言学的角度量化地研究联合结构提供了精确的数据。根据联合结构的结构平行性和中心语相似性这一特征对联合结构用基于规则的方法进行了识别,由于词语语义计算缺乏量化和精确化、词性规则模板颗粒度过于粗糙,识别效果非常不理想,单层单标记联合结构的封闭测试和开放测试最好的调和平均值分别为62.52%和57.12%,这证明了在目前的条件下仅仅依靠联合结构的结构平行和中心语相似特征来识别联合结构的方法基本上是行不通的。本文详细介绍了CRF提出的背景、基本原理以及在中文信息处理中的应用,并用该模型对有标记联合结构进行了自动识别。分别用基于复杂特征的特征模板和增加语言学特征的特征模板在含有嵌套的联合结构、无嵌套联合结构和最长联合结构语料上进行了实验,封闭测试和开放测试调和平均值最高分别达到:99.17%和88.21%;99.99%和87.85%;99.98%和84.42%。这说明用基于统计的方法无论在识别的效率还是在识别的结果上都要比用基于规则的方法优越。