论文部分内容阅读
命名实体识别(Named Entity Recognition, NER)属于自然语言处理(Natural Language Processing, NLP)的基础研究领域,是信息抽取、信息检索、机器翻译、组块分析、问答系统等多种自然语言处理技术的重要基础。因此,对命名实体识别的研究具有很大的实用意义。本文针对现代汉语文本的特点,主要研究以人名、地名和组织名的识别为核心内容的中文命名实体识别问题,我们以一种较新型的统计模型——条件随机场(Conditional Random Field, CRF)为基本框架,设计并实现了一个中文命名实体识别系统,并在此基础上基于潜在语义分析(Latent Semantic Analysis,LSA)实现了对命名实体的歧义消解。具体说来,本文的主要内容如下:本文首先分析了命名实体识别的难点,各类命名实体的特点,并对现有的一些命名实体识别方法和中文命名实体识别系统进行了简要介绍。然后,本文详细介绍了条件随机场的定义、数学模型、参数估计和模型训练方法等。进一步地,我们将条件随机场模型应用于中文命名实体识别任务,实现了一个基于条件随机场的中文命名实体识别系统,系统采用了加入规则优化的双层结构,并提出了适合于各类中文命名实体的特征模板,通过实验进行验证,确定了有效特征。接着,本文介绍了命名实体歧义消解领域的研究状况,提出了一个基于特征选择和潜在语义分析(LSA)的命名实体歧义消解算法NED-FS-LSA,并通过实验验证了用该算法建立一个有效实体库的可行性。最后,本文总结了所做的工作——提出了一种可能的从文本到实体库的完整解决方案,并对未来在此基础上可以进一步开展的研究进行了展望。