论文部分内容阅读
汉语自动分词是中文信息处理的基础工程,中文姓名的自动识别则是汉语自动分词的难点之一,已经成为制约自动分词系统准确率的一大瓶颈。名实体识别在问答系统、组块分词、信息检索、信息抽取等诸多信息处理领域中有着重要应用。怎样正确地识别和分类名实体是一项关键、困难的工作。 中文姓名识别由于两个原因使其比英文名实体识别困难得多:第一,在中文句子中,词与词之间没有空格,导致分词的精确度不高;第二,中文姓名没有明显的特征可以区分开(如:英文人名第一个字母大写)。这些都对正确地识别中文姓名提出了挑战。 本文结合最大熵模型在中文命名实体识别的研究,提出了一种突破传统的规则与统计相结合的识别方法、专门针对于中文姓名的一种基于最大熵模型的姓名识别方法。即利用了最大熵模型在处理复杂语言模型中的优点,又避免里模型在识别过程中遇到的各命名实体结构差别大而导致的特征选择困难的问题。 文章首先分析了中文姓名的结构特征及其在真实文本中出现的复杂情况,同时,结合中文姓名的特点,综合考虑上下文信息、词本身信息、词典信息、标记信息和词的构成信息等对中文名实体的影响,给出了适合于中文姓名识别的特征模板,通过对原子特征模板的组合,得到复合特征模板,并以此生成候选特征空间。进而给出特征选择和特征引入算法,对候选特征删选得到有效特征。在特征的选取上,本文还定义了手写特征,手工编写特征可以把一些训练无法得到的特征引入到模型中,增强了识别系统利用专家经验的能力和系统的扩展性。 本文我们采用的自动获取特征模板是一个简单、有效的特征模板,综合了对姓名识别起作用的字信息、词信息和上下文信息。用一个特征模板就能包含整个复杂语言模型的所有信息。另外,该模板具有扩展性强的特点,模板的长度不是固定值,有利于将一些新发现的语言模型信息解构到模板中。同时本文在姓名识别结果的处理上引入了全局信息,提高姓名识别系统的性能。试验结果表明对准确率的提高是很有帮助的。 通过对真实语料的封闭与开放测试,该方法取得了90%以上的召回率和满