Web环境中实体关系图构建和路径发现子系统的设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:xiaodong618
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的快速发展,Web环境已拥有了海量信息。Web信息中包含大量有用的知识:通过Web信息挖掘,我们可以获取这些知识并将加以应用。基于Web的实体关系图的构建就是Web信息挖掘的工作之一。本文主要研究词条实体关系图的构建方法以及基于该图的路径发现系统。   词条实体关系图的路径发现系统具有重要的理论意义和广泛的应用前景。它对于短文本聚类、开放分类、相关词推荐、六度空间(小世界模型)等应用都有直接的影响;对于搜索引擎的广告匹配,信息检索中提高召回率,以及数据挖掘中基于内容的聚类等技术都有较好的意义;最根本的一点是,对于一个词条(term),计算机可以根据该系统了解词条的邻居和领域,甚至在一定程度上理解其含义。   首先,本论文描述了基于正则模板的词条实体关系图的构建方法。它利用模板在纯文本中提取数据,并将数据组合成为实体关系图;为了计算图中实体间关系的置信度,本文提出了置信度算法。该算法具有简单的操作流程和较高的执行效率,它有效地提高了词条实体关系图的数据质量。   第二,本论文为实体关系图的路径查询提出了穿行次数算法。该算法为每个节点赋予一组距离标签,而通过这些标签就可以回答图的距离查询和路径查询,因此避免了图的遍历。为每个节点计算标签序列是对图数据的预处理过程,穿行次数算法为该过程提出了一个特殊的启发式规则,从而使预处理的时空复杂度低于同类方法。   第三,我们实现并优化了实体关系图的路径发现系统。该系统提供了邻居查询接口、距离查询接口和路径查询接口。在实验中,我们获得了该系统的很多性能方面的数据。   本文对于词条实体关系图的构建提出了置信度算法,对于实体关系图的路径发现提出了穿行次数算法。通过实验,我们证明了算法的正确性和有效性。
其他文献
本文从网页质量的角度出发,以用户的浏览体验为依据,构建了网页质量评估模型。文章使用TREC的GOV2作为实验的数据源,构建GOV2上的检索系统作为实验平台,检索系统的构造包括DOM树
猪舍是猪只活动的场所,为猪只提供适宜的舍内环境,能充分发挥猪只生产潜力和保证猪只的健康生长。但是长期以来,国内的猪舍环境监控方式仍以人工为主,这种传统的监控方式具有自动
当前,对业务流程管理的重视正在影响着信息系统的构建方式。业务流程模型在信息系统构建中的地位越来越重要,同时数据模型描述了业务数据,是信息系统重要的结构模型。在很多情况
维基百科是一个自由免费、内容开放的百科全书协作计划,目前发展极为迅速。它作为人工参与构建的数据,用户参与程度高,质量好,规模大,已经成为用户检索的重要信息来源。现有的对百
随着处理器频率的提高,处理器与存储系统之间的性能差异越来越大。存储层次的设计,成为计算机系统设计中的重要研究对象。现代微处理器通常使用MMU来对内存空间进行管理。如何
目前,关于数据流系统的研究在传感器网络、金融分析、网络流量监测等领域有着大量应用。而针对数据流本身快速、连续、时变、瞬时等特性,如何为数据流管理系统设计一个具有自适
随着中文信息处理技术的迅猛发展,人们对汉字的信息化需求日益增加。在信息化系统中汉字用一个编码代替,可以实现信息的记录、检索等各种功能。但是,对于汉字本身的信息处理(如
我国处于东亚季风区,主要受来自西伯利亚高压的冬季风和北太平洋高压的西部边缘吹向亚洲东部的夏季风影响。季风的年不均衡性是我国气候灾害形成的主要原因,有重要的研究意义。
随着云计算、大数据和互联网服务的兴起,数据中心中出现了一类轻量级的可扩展的负载,传统的高性能服务器对这类负载的适配性并不是很好,主要体现在服务器计算密度低,资源利用率不
P2P技术的迅速发展给数字图书馆的建设提供了广阔的应用空间。分布式数字图书馆中的一些应用软件在分布式互操作方面具有较大的共通性,若能为它们提供一个通用的P2P应用平台和