论文部分内容阅读
随着Internet的快速发展,Web环境已拥有了海量信息。Web信息中包含大量有用的知识:通过Web信息挖掘,我们可以获取这些知识并将加以应用。基于Web的实体关系图的构建就是Web信息挖掘的工作之一。本文主要研究词条实体关系图的构建方法以及基于该图的路径发现系统。
词条实体关系图的路径发现系统具有重要的理论意义和广泛的应用前景。它对于短文本聚类、开放分类、相关词推荐、六度空间(小世界模型)等应用都有直接的影响;对于搜索引擎的广告匹配,信息检索中提高召回率,以及数据挖掘中基于内容的聚类等技术都有较好的意义;最根本的一点是,对于一个词条(term),计算机可以根据该系统了解词条的邻居和领域,甚至在一定程度上理解其含义。
首先,本论文描述了基于正则模板的词条实体关系图的构建方法。它利用模板在纯文本中提取数据,并将数据组合成为实体关系图;为了计算图中实体间关系的置信度,本文提出了置信度算法。该算法具有简单的操作流程和较高的执行效率,它有效地提高了词条实体关系图的数据质量。
第二,本论文为实体关系图的路径查询提出了穿行次数算法。该算法为每个节点赋予一组距离标签,而通过这些标签就可以回答图的距离查询和路径查询,因此避免了图的遍历。为每个节点计算标签序列是对图数据的预处理过程,穿行次数算法为该过程提出了一个特殊的启发式规则,从而使预处理的时空复杂度低于同类方法。
第三,我们实现并优化了实体关系图的路径发现系统。该系统提供了邻居查询接口、距离查询接口和路径查询接口。在实验中,我们获得了该系统的很多性能方面的数据。
本文对于词条实体关系图的构建提出了置信度算法,对于实体关系图的路径发现提出了穿行次数算法。通过实验,我们证明了算法的正确性和有效性。