论文部分内容阅读
命名实体识别是近年来中文信息处理领域研究的热点之一。命名实体是文本中信息最重要的载体,提高命名实体识别的准确率不仅能提高分词精度,而且对于提高信息抽取、信息检索、机器翻译、语音合成等应用系统的性能也有重要意义。目前命名实体识别的基本路线是:首先分析各种专名的内部结构、用字(词)特征,形成专名资源表;其次对大规模专名表和人工标注语料库进行统计学习,训练出适当的语言模型;最后用训练得到的语言模型识别候选专名。在这种思路的指导下,命名实体识别取得了一定的成果。但是,由于专名内部结构和特征的封闭性,各种识别方法在专名资源表构造和内容上逐渐趋于统一。就人名识别来说,一方面,以往的研究大多都是在较简单地分析上下文的基础上运用统计模型进行识别,对人名上下文特征的挖掘还不够细致、深入;另一方面,目前流行的基于语料库和统计语言模型的识别方法在概率估值问题上存在弊端,不能反映语言的客观实际。针对这些问题,我们一方面在人名用字和上下文特征上下功夫,完善了人名用字信息库,通过对几个高频姓氏的实例分析,挖掘了许多有用的正反面特征;另一方面,运用一种改进的可信度估值方法,计算了人名用字的可信度和人名上下文特征的可信度。实验证明,这些措施对于提高人名识别的准确率有积极作用。这种方法也为其他专名的识别提供了借鉴。