论文部分内容阅读
中文命名实体(Named Entity,NE)识别是指识别出文本中特定的实体。它是信息抽取、机器翻译、自动问答等多种自然语言处理技术的基础。但是,由于受中文自身特点的限制,中文命名实体识别一直相当困难。为了促进其他技术和应用的发展,研究中文命名实体的识别技术是很有意义,也是非常重要的。目前中文命名实体识别领域主要有规则和统计两类方法。统计方法以统计模型为基础,而统计模型可大体分为产生式模型和条件概率模型。本文研究的目的就是要讨论中文命名实体识别的几种方法,并分析方法之间的性能差异。为此,文中主要说明了四种中文命名实体识别方法,包括规则、隐马尔可夫模型(Hidden Markov Model,HMM)、最大熵模型(Maximum Entropy,ME)和条件随机域(Conditional Random Fields,CRF)。本文在利用规则的方法进行NE识别时,针对各类NE的特点制定了相应的规则,很好的描述了NE的内部结构和外部特征,达到了较高的准确率。但是规则的建立过程费时费力,且规则不易移植,代价高。HMM、ME和CRF都是统计模型。HMM是产生式模型的典型代表,ME和CRF属于条件概率模型。通过对三种模型的实验对比和分析,本文证明了基于CRF方法的NE识别性能最好。另外,本文还对ME模型进行了比较深入的研究,对比了它在不同的标注集、不同的特征模板以及加入语言学特征的情况下的性能变化。最后还尝试了层次的ME模型,提高了机构名的识别效果。总的来说,中文命名实体识别问题是自然语言处理领域的一个基础的重要问题。本文在不同方法上的实验和分析为NE识别做了一些有益的尝试,取得了一些初步成果。随着中文NE识别技术研究的不断深入和发展,NE识别的性能将会获得更大的提高。