Web环境中实体关系图构建和路径发现子系统的设计与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户：xiaodong618

【摘要】

：

随着Internet的快速发展，Web环境已拥有了海量信息。Web信息中包含大量有用的知识：通过Web信息挖掘，我们可以获取这些知识并将加以应用。基于Web的实体关系图的构建就是Web信息

【作者】

：

许世峰

【机构】

：

北京大学

【出处】

：

北京大学

【发表日期】

：

2009年期

【关键词】

：

实体关系图置信度算法路径发现穿行次数算法 Web环境子系统设计词条实体

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着Internet的快速发展，Web环境已拥有了海量信息。Web信息中包含大量有用的知识：通过Web信息挖掘，我们可以获取这些知识并将加以应用。基于Web的实体关系图的构建就是Web信息挖掘的工作之一。本文主要研究词条实体关系图的构建方法以及基于该图的路径发现系统。　　词条实体关系图的路径发现系统具有重要的理论意义和广泛的应用前景。它对于短文本聚类、开放分类、相关词推荐、六度空间(小世界模型)等应用都有直接的影响；对于搜索引擎的广告匹配，信息检索中提高召回率，以及数据挖掘中基于内容的聚类等技术都有较好的意义；最根本的一点是，对于一个词条(term)，计算机可以根据该系统了解词条的邻居和领域，甚至在一定程度上理解其含义。　　首先，本论文描述了基于正则模板的词条实体关系图的构建方法。它利用模板在纯文本中提取数据，并将数据组合成为实体关系图；为了计算图中实体间关系的置信度，本文提出了置信度算法。该算法具有简单的操作流程和较高的执行效率，它有效地提高了词条实体关系图的数据质量。　　第二，本论文为实体关系图的路径查询提出了穿行次数算法。该算法为每个节点赋予一组距离标签，而通过这些标签就可以回答图的距离查询和路径查询，因此避免了图的遍历。为每个节点计算标签序列是对图数据的预处理过程，穿行次数算法为该过程提出了一个特殊的启发式规则，从而使预处理的时空复杂度低于同类方法。　　第三，我们实现并优化了实体关系图的路径发现系统。该系统提供了邻居查询接口、距离查询接口和路径查询接口。在实验中，我们获得了该系统的很多性能方面的数据。　　本文对于词条实体关系图的构建提出了置信度算法，对于实体关系图的路径发现提出了穿行次数算法。通过实验，我们证明了算法的正确性和有效性。

其他文献

基于机器学习的网页质量评测研究及其若干应用

本文从网页质量的角度出发，以用户的浏览体验为依据，构建了网页质量评估模型。文章使用TREC的GOV2作为实验的数据源，构建GOV2上的检索系统作为实验平台，检索系统的构造包括DOM树

学位

网页质量特征表示分类模型排序模型特征选择机器学习

猪舍环境监控系统研究

猪舍是猪只活动的场所，为猪只提供适宜的舍内环境，能充分发挥猪只生产潜力和保证猪只的健康生长。但是长期以来，国内的猪舍环境监控方式仍以人工为主，这种传统的监控方式具有自动

学位

猪舍环境环境监控模糊控制传感器

面向业务流程模型与数据模型的一致性验证方法的研究与实现

当前，对业务流程管理的重视正在影响着信息系统的构建方式。业务流程模型在信息系统构建中的地位越来越重要，同时数据模型描述了业务数据，是信息系统重要的结构模型。在很多情况

学位

业务流程模型数据模型一致性验证信息系统

维基百科数据结构化查询子系统设计与实现

维基百科是一个自由免费、内容开放的百科全书协作计划，目前发展极为迅速。它作为人工参与构建的数据，用户参与程度高，质量好，规模大，已经成为用户检索的重要信息来源。现有的对百

学位

维基百科数据管理信息集成信息检索数据结构化查询子系统

面向PKUnity-3(SK)系统芯片的高性能存储管理部件设计与研究

随着处理器频率的提高，处理器与存储系统之间的性能差异越来越大。存储层次的设计，成为计算机系统设计中的重要研究对象。现代微处理器通常使用MMU来对内存空间进行管理。如何

学位

微处理器存储管理地址转换

数据流管理系统Argus中稳定重优化模块的设计与实现

目前，关于数据流系统的研究在传感器网络、金融分析、网络流量监测等领域有着大量应用。而针对数据流本身快速、连续、时变、瞬时等特性，如何为数据流管理系统设计一个具有自适

学位

自适应性滑动窗口小波变换时间序列分析数据流管理查询处理

一种基于XML的汉字构形描述方法的研究与实现

随着中文信息处理技术的迅猛发展，人们对汉字的信息化需求日益增加。在信息化系统中汉字用一个编码代替，可以实现信息的记录、检索等各种功能。但是，对于汉字本身的信息处理(如

学位

汉字构形轮廓字库字符集中文信息处理

基于领域知识的时空异常气候模式挖掘研究与实现

我国处于东亚季风区，主要受来自西伯利亚高压的冬季风和北太平洋高压的西部边缘吹向亚洲东部的夏季风影响。季风的年不均衡性是我国气候灾害形成的主要原因，有重要的研究意义。

学位

紧密类簇异常气候事件提取序列模式气候数据原型系统时空模式空间聚类东亚季风

曙光云服务器网络系统设计与实现

随着云计算、大数据和互联网服务的兴起，数据中心中出现了一类轻量级的可扩展的负载，传统的高性能服务器对这类负载的适配性并不是很好，主要体现在服务器计算密度低，资源利用率不

学位

云服务器网络系统设计理念分布式架构资源共享

数字图书馆应用中P2P平台核心模块的设计与实现

P2P技术的迅速发展给数字图书馆的建设提供了广阔的应用空间。分布式数字图书馆中的一些应用软件在分布式互操作方面具有较大的共通性，若能为它们提供一个通用的P2P应用平台和

学位

对等网络数字图书馆拓扑结构连接传输方式

Web环境中实体关系图构建和路径发现子系统的设计与实现

与本文相关的学术论文