论文部分内容阅读
命名实体识别是文本信息处理中的一个研究热点,人名是命名实体的重要组成部分。本文主要讨论中文文本中人名识别的问题。所要识别的人名包括汉语人名、类汉语人名(如韩国人名、越南人名等)以及人名译名。在本文中,我们将其统一称为汉语人名。 由于最大熵模型具有简洁、通用和易于移植的特点,使用该模型在英文中进行命名实体识别已取得一定成效。本文结合中文文本中人名的特点,将对使用最大熵模型进行人名识别进行介绍,重点介绍特征选择方法。1 系统描述1.1 最大熵模型 对于给定的训练样本,最大熵模型应该选择一个与训练样本