论文部分内容阅读
Internet是一个巨大、分布广泛、全球性的信息服务中心,它提供了各种各样的信息服务。与此同时,如何从Internet所提供的浩如烟海的信息中获取所需信息或是从中提取出有用知识便相应的成为一个迫切需要解决的问题。 将传统的数据挖掘技术和Web结合起来,进行Web数据挖掘成为解决这一问题的一条重要途径。本文首先论述了数据挖掘技术在Web中应用的各个方面,包括其分类、技术、发展状况、前景和研究方向,以及Web数据挖掘技术在搜索引擎中的应用,并讨论了XML为Web数据挖掘带来的新变化与转机。 Web结构挖掘是Web数据挖掘的一个重要方面,其重点在于信息检索,链接分析技术在该领域中扮演着极为重要的角色,并已经被成功的用于分析Web超链接数据来确定权威的信息源。在各种对网页进行链接分析并提取分组的算法中,HITS(Hyperlink-Induced Topic Search)算法是应用的最为广泛的。本文对HITS算法进行了重点讨论,在实验的基础上对传统HITS算法易产生主题偏移问题这一缺点进行了分析,并针对这一问题,使用根集向量投影法和基本集缩减法对HITS算法加以改进,接着在根集向量投影法的基础上,又提出了根集向量加权投影法和基本集向量加权投影法进行进一步改进,以更好的实现权威网页搜索。 本文对改进后的HITS算法与传统HITS算法进行了实验比较,发现根集向量投影法可以有效的避免主题偏移现象,基本集缩减法可以大大的缩减算法运算量,而根集向量加权投影法和基本集向量加权投影法则可以在使权威网页的提取结果更为合理的基础上,有效提高算法的灵活性。