论文部分内容阅读
随着近几年互联网的飞速发展,网络中各种各样的电子文本信息急剧膨胀。如何迅速、有效地从这些海量的、非结构化的文本中获取我们所需要的信息和知识已经成为自然语言处理领域的一个研究热点。作为信息抽取的重要子任务,命名实体识别在许多自然语言处理应用领域起着十分重要的作用,其主要目的是识别文本或句子中表示人名、地名、机构名以及时间日期等信息的短语。本文引入实体语素概念,在机器学习框架融合实体内部结构特征和外部上下文信息研究人名、地名和机构名等命名实体识别方法,重点解决地名和机构名当中存在的大量复杂的、含有嵌套结构的命名实体识别问题。具体地,本文从以下三个方面展开研究:首先,采用基于机器学习方法构建汉语命名实体的双层模型,并通过实验对最大熵和条件随机场组合成的四种双层模型进行了对比测试。结果表明基于条件随机场的双层模型对嵌套命名实体的识别效果最好。在此基础上,对双层模型的错误识别结果进行了分析,进而提出一种基于互信息的后处理方法,对复杂的命名实体进行纠错处理,很大程度上解决了嵌套命名实体边界识别错误问题。其次,将非嵌套的简单实体和嵌套的复杂实体分开分别处理,同时以字和词相结合的方式,深入剖析多层嵌套命名实体的结构特点,并以此为基础改进基于条件随机场的双层模型结构,以进一步提高嵌套命名实体识别效果。最后,通过语料库考察了汉语嵌套命名实体与实体语素之间的关系,并以命名实体语素为基础,通过Logistic回归模型中Logistic变换方法筛选出的嵌套命名实体内部的多级前后缀语素特征,进而在条件随机场模型上融合内部结构特征和外部上下文信息,实现了一个基于实体语素的汉语嵌套命名实体识别系统。实验结果表明,命名实体语素的引入有利于提高嵌套命名实体识别的性能。