论文部分内容阅读
Web挖掘是传统的数据挖掘理论在Web中的应用,其涉及多学科领域的知识,如计算机网络、数学、人工智能等,是一个交叉性的研究领域。Web结构挖掘(WebStructure Mining)是Web挖掘研究领域的重要分支,它是通过分析各种网页结构间的关系信息,从而寻找潜藏在页面内容之外但有潜在价值的信息的过程。其中,这些网页结构信息主要包含以下三种:页面之间的超链接结构关系,可以用超文本标记语言(HTML)或可扩展标记语言(XML)表示的网页中的树型结构(DOM),页面统一资源定位(URL)中起组织和表现形式作用的文件目录结构。文章首先分析了经典结构挖掘算法PageRank、HITS及其改进算法,对算法中存在的问题进行了系统的阐述。PageRank算法是通过离线状态计算的,因而具有较快的响应速度,但其没有考虑与查询主题之间的关系,导致结果的主题性很差;HITS算法则是根据查询文本进行的运算,需要在线状态完成所有的工作,因此相比前者响应速度比较慢。针对这些问题本文提出了B-PH算法(Algorithm based on PageRankand HITS),该算法充分结合了文档内容和超链接结构,使得结果页面集更具有权威性和相关性。最后通过实验系统对真实数据的检测,通过与经典算法对比验证了该算法的可行性和有效性。本文所做的主要工作:1.对经典结构挖掘算法进行了分析,并对算法中存在的问题进行了系统的阐述。2.提出了Web噪音链接处理的新方法,有效地提高了算法的效率。3.提出了B-PH算法(Algorithm based on PageRank and HITS)。该算法在HITS算法框架基础上结合了PageRank,极大地减少了主题漂移现象,提高了查询效率和质量。4.提出了检验B-PH算法的实验模型,并开发了DotNet环境下基于B/S架构的Web应用实验系统,系统通过对真实数据处理,验证了算法的可行性和有效性;最后对处理结果进行了对比分析。