论文部分内容阅读
Web结构挖掘是从WWW的组织结构、Web文档结构和链接关系中推导知识的过程。目前基于网络的组织结构和链接关系进行挖掘的算法主要有两种,其中有代表性的算法主要是Larry Page等人设计的PageRank算法。通过分析和研究PageRank、HITS,TimedPagrank等基于链接结构的搜索结果排名算法,发现传统的页面排序算法偏重于旧网页,使得一些旧的页面经常出现在检索结果的前面。本文引入时间链接分析,使用爬虫抓起页面时HTTP协议反馈回来的修改时间作为页面和链接的时间,并综合考虑页面的出入链接个数和时间来计算页面的权重值。所开发出的WTPR算法,能使新网页集在排序中上升,同时,高质量的旧网页比普通的旧网页能获得较高的排序值。本文研究页面排序算法,主要做了如下工作:首先介绍Web结构数据挖掘,对Web链接分析的工作原理及相关定义进行了详细的介绍,分析了Web链接分析的研究现状和主要工作,为下面章节介绍基于超链接分析的页面排序算法打下了坚实的基础。其次针对PageRank算法存在的这些缺陷,引入时间链接分析,通过分析爬虫Websphnix抓起页面时HITP协议反馈回来的网页最后修改时间来表示网页年龄,并在此基础上对网络的组织结构和链接质量以及时间序列进行挖掘。根据网页年龄,提出了基于网页年龄衰减的页面排序算法Age-WPR,并进行了实验验证。继而针对静态网页年龄不能满足当前网络的动态变化,以及页面时间的不确定性,本文提出了兴趣区间的概念,并具体定义了动态网络环境下节点和链接的时间戳,并在此基础上提出了新鲜度概念,以区分新旧页面,然后结合网页节点质量因子开发出WTPR算法,从而克服现有Web超链接分析中的不足。最后概要介绍了java版页面排序模块的实现过程,并给出了PageRank计算的大体思路,最终根据改进的页面排序算法对网页快照数据进行实验验证,通过本程序验证,确定了WTPR算法中的权重因子,并且这些优化策略改进了搜索引擎的页面排序结果,同时保证了新旧两种页面的排序优化。