论文部分内容阅读
命名实体识别是自然语言处理和数据挖掘领域的热点研究课题之一,随着网络数据的爆发式增长,人们对如何在海量数据中快速准确获取有意义信息的需求不断增加。命名实体识别是关键信息提取的一项核心技术,在信息抽取、信息检索、文本分类等多种自然语言处理的领域中都起着关键性的作用,受到研究人员的极大重视。本文从中文命名实体识别的理论研究出发,针对在招标数据中对命名实体提取和识别的迫切需求,重点研究在招标数据集中命名实体提取规则的设计以及基于混合模型的命名实体识别方法。构建全国招投标网络平台数据集,通过实验充分验证了提出方法的有效性,能够满足招标数据中评审专家名、项目联系人、联系地址、招标机构名、代理机构名和中标机构名六种命名实体提取的实际需求。本文的主要工作及研究成果包括:(1)深入分析招标数据中实体的构成规则以及文本特征,构建适用于识别招标数据中命名实体的边界规则库和实体规则库,采用基于规则的方法对其中的命名实体进行识别研究。(2)提出了一种基于混合模型的命名实体识别方法。该方法采用二阶隐马尔可夫模型作为统计模型,根据模型优化了 Viterbi算法,充分利用上下文信息进行命名实体识别。同时根据招标数据的特点,在统计模型的基础上加入基于规则的前期处理和后期校正处理,提高了命名实体识别效果。(3)针对构建的全国招投标网络平台数据,通过三组实验对本文提出的基于规则的方法、基于混合模型的方法和哈工大的LTP系统以及中科院的NLPIR系统对数据集中六种命名实体的识别效果进行验证。实验结果表明,基于混合模型的方法在针对招标数据的命名实体识别方面具有更好的识别效果。以上研究表明,针对招标数据中的命名实体识别问题,本文提出的基于混合模型的识别方法识别效果良好,可以作为构建一种适用于招标数据的命名实体识别系统的基础方法。运用该方法可以有效提高相关机构在获取招投标信息时的搜索效率和准确度。