论文部分内容阅读
WWW的迅速发展,改变了信息创建和交换的方式。虽然网络速度在近几年有了很大的提高,但网络带宽的增长却总是滞后于对其需求的增长,使得人们在访问WWW时总是要忍受较长的等待时间。Web预取作为一种最流行和最有效的减少访问延迟的手段,已经越来越受到研究者的关注。 由于基于Web挖掘的预取能够更加准确地反映用户的访问模式,从而取得更好的预取性能,所以,它一直是Web预取研究的热点。而代理服务器作为Internet基础构架的中间层,本身就具备了减少Web访问延迟的作用。如果在代理服务器端实现基于Web挖掘的预取,无疑会取得最佳的效果。 在本文中,我们研究了基于Web挖掘的Proxy端预取技术,目的是减少用户访问Web时所感知的延迟,为用户提供个性化的预测预取服务。我们用代理服务器上的访问日志作为训练数据集,努力以最小的数据集来建立高效的预测预取模型。为了提高预取模型的性能,我们还根据Web的变化特点,引入了新闻性网页的概念,并以此为基础,在Web挖掘的事务识别阶段,象剔除噪声数据一样,把这些新闻性网页去除,实验表明,它不仅可以有效地缩减预测预取模型的体积,而且能够提高预测预取的性能。为了追踪Web的变化更新,弥补基于日志挖掘的预测模型只能反映用户过去的访问行为和只能为已有的用户提供预取服务的缺憾,我们还提出了动态预测预取模型和增强型动态预测预取模型的方法,以预测Web的最新变化,并为新增加的用户提供预测预取服,实验表明,它们可以进一步提高预测预取系统的性能。为了保证预测预取模型的效率,我们还采用Hash函数、链表等来组织模型文件和索引结构。 虽然我们在本文中所实现的几种预测预取模型都是以关系图为基础,但它同样适用于PPM模型,并且在PPM上会取得更佳的性能。