论文部分内容阅读
并列结构的自动识别对提高自动句法分析器的性能和工作效率具有重要意义,同时该识别结果可以直接应用于机器翻译、信息抽取等领域。以往对并列结构的研究大部分是进行理论探讨,少部分的自动识别研究也是针对比较简单的并列结构。本文在为提高完全句法分析性能的前提下,利用大规模语料库,分别展开了基于规则和基于机器学习方法的并列结构自动识别研究。本文首先分析了宾州中文树库中并列结构的语言学特征,主要从并列结构内部和外部两个方面进行考察。内部特征主要考察了并列结构中并列成分的词性序列分布,并列结构的平行性和嵌套并列结构;外部特征主要考察了并列结构的左边界特征词和右边界特征词。这些统计和分析结果可以为计算机自动识别并列结构提供丰富的语言学知识。本文分析了并列结构的相似性,以及边界特征词分布的规则性,探索了基于规则方法的并列结构自动识别。具体地,根据并列成分中心词词性,将并列结构分为五大类,分别针对每类并列结构特点实现自动识别。本文实现了基于最大熵模型的并列结构自动识别。该方法将并列结构的自动识别转化为一个分类问题,根据连接词的位置分别向左和向右搜索出并列结构的左右边界。本文根据并列结构呈现的特点,分析了探索了适合并列结构边界识别的上下文特征。为了减少因数据稀疏导致的识别错误,本文使用错误驱动的方法对最大熵的识别结果进行了校正。该方法首先对最大熵识别出的错误并列结构内部信息进行分析,获得候选校正规则集;然后,利用评价函数进行规则筛选,得到最终的校正规则集;最后,利用校正规则集对基于最大熵模型的自动识别结果进行校正。实验结果表明,基于规则方法的并列结构识别性能F1值为75.6%,而基于最大熵模型方法的性能F1值达到83.7%,使用错误驱动的方法之后进一步将性能F1值提高到84.3%,显示了较好的并列结构自动识别效果。