论文部分内容阅读
命名实体的识别一直是自然语言处理领域的研究焦点之一,对信息抽取、问答系统、机器翻译等方面的研究有着十分重要的价值。虽然命名实体识别技术已经相当成熟,但是从评测的结果来看,中文命名实体的识别还远远不能满足应用的需求,因为这里存在着技术、资源、应用需求有机结合的问题。
中文组织机构名的识别是命名实体识别的一个子问题,又是其中一个难点问题。目前,国内对中文组织机构名识别的研究或者是仅局限于某一具体领域,如:学校、银行等机构名的识别;或者是所用方法中人工工作量相当大,如:需要人工提取许多规则。
本文基于最大熵模型,探索性地构建了一个中文组织机构名识别的系统,取得了较好的效果。本文主要研究了以下几个方面的问题:
第一、特征抽取及选择。在分析真实语料的基础上,本文提取出了适合中文组织机构名的特征集,并利用特征选择算法提取出有效特征。
第二、在特征集的基础上构建了中文组织机构名识别的最大熵模型。
第三、系统构建。本文基于最大熵模型构建了一个中文组织机构名识别系统。该系统主要由模型训练和文本标注两部分构成。首先根据己选取的特征构建最大熵模型,并且在一定规模的语料基础上进行模型训练。其次,按照一定的解码算法进行文本标注。实验结果表明,该系统取得了较好的效果。
本文深入研究了中文组织机构名的内部和外部特征,充分利用已有信息,实现了组织机构名的识别,效果较好。今后将在进一步扩大资源,改进数据结构的基础上进行更深入的研究。