面向招标数据的命名实体识别方法研究及应用

来源 :北京交通大学 | 被引量 : 3次 | 上传用户：hwyvvv

【摘要】

：

命名实体识别是自然语言处理和数据挖掘领域的热点研究课题之一,随着网络数据的爆发式增长,人们对如何在海量数据中快速准确获取有意义信息的需求不断增加。命名实体识别是关

【作者】

：

孙誉侨

【出处】

：

北京交通大学

【发表日期】

：

2017年01期

【关键词】

：

招标数据命名实体识别规则匹配混合模型二阶隐马尔可夫模型 Viterbi 算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

命名实体识别是自然语言处理和数据挖掘领域的热点研究课题之一,随着网络数据的爆发式增长,人们对如何在海量数据中快速准确获取有意义信息的需求不断增加。命名实体识别是关键信息提取的一项核心技术,在信息抽取、信息检索、文本分类等多种自然语言处理的领域中都起着关键性的作用,受到研究人员的极大重视。本文从中文命名实体识别的理论研究出发,针对在招标数据中对命名实体提取和识别的迫切需求,重点研究在招标数据集中命名实体提取规则的设计以及基于混合模型的命名实体识别方法。构建全国招投标网络平台数据集,通过实验充分验证了提出方法的有效性,能够满足招标数据中评审专家名、项目联系人、联系地址、招标机构名、代理机构名和中标机构名六种命名实体提取的实际需求。本文的主要工作及研究成果包括:(1)深入分析招标数据中实体的构成规则以及文本特征,构建适用于识别招标数据中命名实体的边界规则库和实体规则库,采用基于规则的方法对其中的命名实体进行识别研究。(2)提出了一种基于混合模型的命名实体识别方法。该方法采用二阶隐马尔可夫模型作为统计模型,根据模型优化了 Viterbi算法,充分利用上下文信息进行命名实体识别。同时根据招标数据的特点,在统计模型的基础上加入基于规则的前期处理和后期校正处理,提高了命名实体识别效果。(3)针对构建的全国招投标网络平台数据,通过三组实验对本文提出的基于规则的方法、基于混合模型的方法和哈工大的LTP系统以及中科院的NLPIR系统对数据集中六种命名实体的识别效果进行验证。实验结果表明,基于混合模型的方法在针对招标数据的命名实体识别方面具有更好的识别效果。以上研究表明,针对招标数据中的命名实体识别问题,本文提出的基于混合模型的识别方法识别效果良好,可以作为构建一种适用于招标数据的命名实体识别系统的基础方法。运用该方法可以有效提高相关机构在获取招投标信息时的搜索效率和准确度。

其他文献

问题导向教学方法对高校学风建设的作用

学风建设的核心环节在于教风建设，教风建设的核心环节又在于教师教学方法的改进。问题导向的教学方法具有教学环节上的开放性、学生地位上的主体性和教学内容上的实践性的特征

期刊

高校学风建设问题导向教学方法学生主体地位社会能力养成学习共同体academic atmosphere construction of colleges

构建广西科技型中小企业融资体系研究

科技型中小企业在广西经济发展中具有引领性和基础性的作用,通过企业的创新和创造可以激活一个行业甚至产业,但是科技型中小企业在创业的过程中往往面临多种风险,致使资金来

期刊

广西科技型中小企业融资思路措施

用于路面维修和薄层铺装的粉煤灰树脂聚合砼研究

论述了目前韩国用于路面、桥面维修和薄层铺装的粉煤灰树脂聚合砼的基本性质，通过流动性、硬化时间、抗压强度、抗挠强度、粘结强度、抗氯化物腐蚀性、干燥收缩、抗冻融性和耐

期刊

公路聚合砼粉煤灰路面维修薄层铺装

珠江—西江经济带跨省域生态补偿机制的构建

珠江—西江经济带作为国家战略,生态环境保护是其建设和发展的基础及支撑保障。经济带内经济发展呈现明显的区域差异,需要建立完善的跨省域生态补偿机制,以破解跨省流域之间

期刊

珠江—西江经济带生态保护生态补偿机制

中国社会组织创新的类型与特征——基于108个社会组织创新案例的多案例研究

近年来,中国社会组织创新活动不断涌现,社会组织创新作为推动社会发展进步的重要组成部分,逐渐引起实践界和理论界的广泛关注,但对社会组织创新的类型、特征和分布等问题尚未

期刊

社会组织创新多案例研究文本分析

关联理论在汉英新闻翻译中的应用

自从斯波伯和威尔逊提出关联理论以来,关联理论在其他多种领域的具体应用研究得到了繁荣发展。厄恩斯特·奥古斯特·格特是将关联理论应用到翻译研究领域来解释翻译现象的第

期刊

关联理论汉英新闻翻译最佳关联语境

斜拉索索股及索套振动一致性研究

依托贵州六广河特大桥,对索股和索套的振动进行大样本量平行试验,验证了其索股、索套振动的高度一致性;通过综合分析拉索参数及边界条件,得到了在不考虑拉索抗弯刚度的前提下

期刊

桥梁斜拉索索股索套索力振动

构建学习型社会远程教育教师的责任担当

现代远程教育是将现代信息技术和现代教育思想有机结合的一种新型教育形式,是建设全民学习、终身学习的学习型社会的重要途径。现代远程教育不仅对学习者的学习、生活、思想

期刊

学习型社会远程教育教师责任担当learning-oriented society distance education teachers respons

面向招标数据的命名实体识别方法研究及应用

其他学术论文