面向招标数据的命名实体识别方法研究及应用

来源 :北京交通大学 | 被引量 : 3次 | 上传用户:hwyvvv
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别是自然语言处理和数据挖掘领域的热点研究课题之一,随着网络数据的爆发式增长,人们对如何在海量数据中快速准确获取有意义信息的需求不断增加。命名实体识别是关键信息提取的一项核心技术,在信息抽取、信息检索、文本分类等多种自然语言处理的领域中都起着关键性的作用,受到研究人员的极大重视。本文从中文命名实体识别的理论研究出发,针对在招标数据中对命名实体提取和识别的迫切需求,重点研究在招标数据集中命名实体提取规则的设计以及基于混合模型的命名实体识别方法。构建全国招投标网络平台数据集,通过实验充分验证了提出方法的有效性,能够满足招标数据中评审专家名、项目联系人、联系地址、招标机构名、代理机构名和中标机构名六种命名实体提取的实际需求。本文的主要工作及研究成果包括:(1)深入分析招标数据中实体的构成规则以及文本特征,构建适用于识别招标数据中命名实体的边界规则库和实体规则库,采用基于规则的方法对其中的命名实体进行识别研究。(2)提出了一种基于混合模型的命名实体识别方法。该方法采用二阶隐马尔可夫模型作为统计模型,根据模型优化了 Viterbi算法,充分利用上下文信息进行命名实体识别。同时根据招标数据的特点,在统计模型的基础上加入基于规则的前期处理和后期校正处理,提高了命名实体识别效果。(3)针对构建的全国招投标网络平台数据,通过三组实验对本文提出的基于规则的方法、基于混合模型的方法和哈工大的LTP系统以及中科院的NLPIR系统对数据集中六种命名实体的识别效果进行验证。实验结果表明,基于混合模型的方法在针对招标数据的命名实体识别方面具有更好的识别效果。以上研究表明,针对招标数据中的命名实体识别问题,本文提出的基于混合模型的识别方法识别效果良好,可以作为构建一种适用于招标数据的命名实体识别系统的基础方法。运用该方法可以有效提高相关机构在获取招投标信息时的搜索效率和准确度。
其他文献
学风建设的核心环节在于教风建设,教风建设的核心环节又在于教师教学方法的改进。问题导向的教学方法具有教学环节上的开放性、学生地位上的主体性和教学内容上的实践性的特征
科技型中小企业在广西经济发展中具有引领性和基础性的作用,通过企业的创新和创造可以激活一个行业甚至产业,但是科技型中小企业在创业的过程中往往面临多种风险,致使资金来
论述了目前韩国用于路面、桥面维修和薄层铺装的粉煤灰树脂聚合砼的基本性质,通过流动性、硬化时间、抗压强度、抗挠强度、粘结强度、抗氯化物腐蚀性、干燥收缩、抗冻融性和耐
珠江—西江经济带作为国家战略,生态环境保护是其建设和发展的基础及支撑保障。经济带内经济发展呈现明显的区域差异,需要建立完善的跨省域生态补偿机制,以破解跨省流域之间
近年来,中国社会组织创新活动不断涌现,社会组织创新作为推动社会发展进步的重要组成部分,逐渐引起实践界和理论界的广泛关注,但对社会组织创新的类型、特征和分布等问题尚未
自从斯波伯和威尔逊提出关联理论以来,关联理论在其他多种领域的具体应用研究得到了繁荣发展。厄恩斯特·奥古斯特·格特是将关联理论应用到翻译研究领域来解释翻译现象的第
依托贵州六广河特大桥,对索股和索套的振动进行大样本量平行试验,验证了其索股、索套振动的高度一致性;通过综合分析拉索参数及边界条件,得到了在不考虑拉索抗弯刚度的前提下
现代远程教育是将现代信息技术和现代教育思想有机结合的一种新型教育形式,是建设全民学习、终身学习的学习型社会的重要途径。现代远程教育不仅对学习者的学习、生活、思想