文本的实体关系抽取及其可视化研究

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:shoretxm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实体关系抽取是指自动识别非结构化文本中两个实体之间的关联,是信息抽取的一个重要研究内容。信息可视化是利用计算机技术将信息转化为视觉形式的技术,以充分利用人的感知能力去观测、浏览、识别和理解信息。本文将实体关系抽取与信息可视化相结合,作为本文研究的对象,实体关系抽取为信息可视化提供信息,信息可视化则直观地表达出实体关系抽取的结果。 本文在目前实体关系抽取的研究背景和技术现状的基础上,使用基于特征向量的机器学习方法对中文实体关系抽取进行研究,该方法将实体关系抽取作为一个分类问题。在机器学习方法方面,由于支持向量机SVM具有严格的数学理论基础、直观的几何解释和良好的泛化能力,因此本文选择了SVM作为分类器。在特征向量构造方面,本文从实体对的上下文特征、实体特征、词汇特征三方面进行研究,重点引入上下文词语信息增益权重特征和核心词语相似度权重特征,以增加特征向量的区分度。针对SVM分类器多分类方面的不足,本文将实体关系抽取问题分解为多个规模较小的问题,减少了SVM分类器学习和预测的类别数量和计算量。针对标注语料库不足的问题,本文引入自扩展的方法,半自动扩展未标注语料库,同时该方法也为词语相似度的计算提供核心词集。 本文在实体关系抽取研究的基础上,结合信息可视化的模型,研究了文本内容可视化和实体关系可视化的方法。在文本内容可视化方面给出了颜色图的可视化方法。在实体关系可视化方面则将实体关系看作一个网络图结构,提出了建立可视化结构和可视化映射的方法,并采用力向导算法对网络图进行自动布局。同时,本文还对信息可视化的交互性要求进行了讨论。 本文在以上理论研究的基础上开发了一个实体关系抽取及可视化的系统原型RelationView。在此系统平台上对实体关系抽取进行实验,验证了特征向量构造的正确性。与此同时,本文还给出了利用力向导算法自动布局的实体关系可视化效果图,得到布局结果不仅符合美观的标准,而且直观地表现出了实体关系网络图结构的特点。
其他文献
RIA软件开发作为一种新的技术,目前在技术市场上正处于起步阶段,所以针对如何高效的、准确的、低费用的开发出具有企业级规模的富媒体软件系统方面的技术标准,还没有一个统一
随着因特网资源使用的迅速发展,传统的信息交流方式发生了巨大改变,电子文档等数字资源凭借着快速的传播方式越来越普及,数字内容的版权侵权事件也呈现增长的趋势,数字版权的像护
近年来,数据挖掘技术引起了人们的广泛关注和深入研究,而聚类技术是数据挖掘相关研究中最为常用的技术之一,得到了越来越多的关注。但是传统的聚类算法在处理样本空间的形状
随着经济和技术的发展,汽车成为了日常的交通工具,汽车的快速增长是导致交通问题最直接的原因。在交通系统中,充分利用现有路网资源,提高车辆通行效率是现代交通控制配时方案
随着网络的广泛普及和网络规模的急速扩大,支持各种信息系统的网络应用也不断发展,然而Internet也面临着严峻挑战,主要包括路由设备瓶颈、QOS、管理、安全和移动接入等问题,
伴随着计算机工业的高速发展,软件产业也历经了多次产业化革命。日新月异的技术和产品、市场的效率需求和质量需求、难以控制的软件开发模式,使得技术和管理人员迫切地需要高
计算机网络技术和分布式数据库技术的发展促进了数据的分布式存储,从而促进了分布式数据挖掘这一新技术的产生。分布式数据挖掘使用分布式计算技术,从分布式数据库中发现用户
计算机网络安全问题近年来得到普遍的关注。入侵检测技术是网络安全的重要技术之一,虽然入侵检测经历了较长时间的发展,但它仍是一个不完全成熟的技术领域。现有的许多入侵检测
模糊支持向量机是在支持向量机的基础上引入模糊隶属度函数发展而来的,一定程度上解决了支持向量机的一些局限问题,并被广泛应用于模式识别和人工智能领域。它也是人脸识别的
面向服务的体系结构(SOA)是当今IT业内最热门的话题之一。SOA将功能组件通过服务之间定义好的接口联系起来,并使各个组件可以用统一和通用的方式交互。通过使用SOA框架,系统之