论文部分内容阅读
命名实体识别(NER)是信息抽取的基础模块,在信息检索、机器翻译、数据挖掘、自动文摘等领域发挥着重要作用。本文以条件随机域模型(Conditional Random Field)为基础重点研究中文命名实体中的人名、地名、组织机构识别。本文的主要工作和特点如下: 1、本文系统详细地介绍了条件随机域模型,讨论了该模型相对于其它序列标注统计模型的特点。 2、引入了互信息(Mutual Information)从现有的标注语料库资源中获取外部统计词典,在模型的训练过程中利用统计词典获得外部特征。实验表明外部特征的加入可以弥补训练规模的不足、显著的提高实体识别效果。 3、在组织机构名训练过程中引入了基于置信度的主动学习算法,采用了密度加权的基于池的样本选择策略,能够在耗费同样标注成本的情况下在一定程度上提升系统性能,降低特征函数集的冗余。 4、利用现有的人民日报标注语料库,以条件随机域模型为基础实现在字一级对于包括外国译名在内的中文人名、地名的识别以及在词一级对于复杂组织机构名的识别。