地名本体实体与关系抽取研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:iowreoksbcx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,突发事件频频发生。应急管理的重要性越来越突出。应急管理的过程中涉及多方面数据的融合。如何快速、准确的提供相关的数据是急需研究的问题。随着互联网的发展,网络上的数据呈指数级增长,这些数据中包含了很多应急管理需要的信息。地名信息是应急信息的核心支撑点。本文进行地名本体实体和关系抽取研究,抽取地名相关的实体和实体间的关系,为应急数据的抽取和语义化奠定核心基础。实体和关系的抽取属于自然语言处理中的命名实体识别和关系抽取。目前主流的方法有基于规则的方法和基于机器学习的方法。本文在抽取的过程中根据原始文本中实体和关系的特点分别因地制宜地采取了基于规则和基于机器学习的方法。由于业界没有建立好的地名领域抽取的语料库,本文首先建立了地名本体抽取的实体体系和关系体系,然后根据抽取过程中关注的特征建立实体抽取和关系抽取所需要的语料,详细介绍了语料库构建的过程。对地名本体实体根据其在原始文本中出现的规律进行了分类,分别采用基于规则的方法和利用最大熵进行机器学习的方法。首先总结了四类地名本体实体的抽取规则,然后对于其他的几类地名本体实体,首先对机器学习过程中使用的特征进行了分析,基于标注的语料,利用最大熵进行了地名实体的抽取。对于关系的抽取,首先分析了关系的特点,采用基于特征向量的方法,利用SVM进行关系的抽取。根据语料的特点,提出了基于规则的方法抽取地名本体的关系。同时,分析了关系的特点,制定了相关的规则,从已有的关系出发,推导出隐含的关系,进一步丰富地名本体关系库。最后,设计和实现了地名本体实体和关系抽取平台,并将抽取的数据应用到了实际的语义地名搜索引擎中,实践证明,抽取的实体和关系数据很大程度上提升了用户体验,帮助了用户更方便、更迅速、更准确的地名相关数据。
其他文献
随机共振自从在上个世纪八十年代被提出以来,经过将近三十年的发展,在理论和实验研究中取得了很多成果,也应用于物理、化学、生物学、通信、信息论、电子学、光学、超导、神
随着经济的不断发展和交通管理的复杂化,交通智能中的车牌识别系统(LPR)已经成为热门研究领域。车牌识别系统可以动态抓取视频图像或者静态图像,将车牌号码自动识别出来,并且
IEC61131-3标准明确表示,顺序功能图(Sequential Function Chart, SFC)和梯形图(Ladder Diagram, LD)是可编程逻辑控制器(Programmable Logic Controller, PLC)的常用编程语
物联网是以传感网为基础,建立在互联网之上的新型大规模物物相联网络,物联网的发展将会引领继计算机、互联网之后的世界信息产业第三次浪潮。大规模的物物相连网络,必然会带来信
自从2009年Berners–Lee在TED大会上发言后,关联数据技术得到了迅猛发展。截至2011年9月关联开放数据云已包含了310亿个RDF三元组和近50.4亿个RDF关联。面对如此海量的关联数
随着信息技术的飞速发展以及网络应用的日新月异,互联网已经成为现代社会中不可或缺的部分,然而,人们在享受互联网带来便利的同时,也不得不面对脆弱的网络安全所带来的巨大困扰,因
自从信息技术诞生以来,随着其高速的发展,人们的生活每时每刻都在受信息技术的影响,尤其是当今的互联网的飞速发展,大大改变着这个世界,改变着人们的思考和交流方式。人类的
工作流技术是当前计算机应用领域和计算机信息技术领域迅速发展的一项新技术。基于工作流的管理系统已成为一种趋势,并逐渐成为软件开发的一个基础平台,特别是信息系统,工作
随着计算机及网络技术的发展,数字化办公在政府、企业内得到广泛应用,信息泄漏事件的频频发生使信息安全越来越得到人们的重视。针对内网和外网安全,很多公司开发了保护信息安全
角色动画是计算机动画技术的一个重要组成部分,也是计算机图形学的一个重要分支。角色动画在离线渲染环境下和实时渲染环境下都得到了广泛的应用。在实时渲染环境下,主要应用