基于Web挖掘的Proxy端预取技术的研究与实现

来源 :东北大学 | 被引量 : 0次 | 上传用户:antoneychang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
WWW的迅速发展,改变了信息创建和交换的方式。虽然网络速度在近几年有了很大的提高,但网络带宽的增长却总是滞后于对其需求的增长,使得人们在访问WWW时总是要忍受较长的等待时间。Web预取作为一种最流行和最有效的减少访问延迟的手段,已经越来越受到研究者的关注。 由于基于Web挖掘的预取能够更加准确地反映用户的访问模式,从而取得更好的预取性能,所以,它一直是Web预取研究的热点。而代理服务器作为Internet基础构架的中间层,本身就具备了减少Web访问延迟的作用。如果在代理服务器端实现基于Web挖掘的预取,无疑会取得最佳的效果。 在本文中,我们研究了基于Web挖掘的Proxy端预取技术,目的是减少用户访问Web时所感知的延迟,为用户提供个性化的预测预取服务。我们用代理服务器上的访问日志作为训练数据集,努力以最小的数据集来建立高效的预测预取模型。为了提高预取模型的性能,我们还根据Web的变化特点,引入了新闻性网页的概念,并以此为基础,在Web挖掘的事务识别阶段,象剔除噪声数据一样,把这些新闻性网页去除,实验表明,它不仅可以有效地缩减预测预取模型的体积,而且能够提高预测预取的性能。为了追踪Web的变化更新,弥补基于日志挖掘的预测模型只能反映用户过去的访问行为和只能为已有的用户提供预取服务的缺憾,我们还提出了动态预测预取模型和增强型动态预测预取模型的方法,以预测Web的最新变化,并为新增加的用户提供预测预取服,实验表明,它们可以进一步提高预测预取系统的性能。为了保证预测预取模型的效率,我们还采用Hash函数、链表等来组织模型文件和索引结构。 虽然我们在本文中所实现的几种预测预取模型都是以关系图为基础,但它同样适用于PPM模型,并且在PPM上会取得更佳的性能。
其他文献
“邮件过滤系统专用文件系统”是信息产业部“电子发展基金”支持的“网络多功能服务器”项目下的一个子课题。在Internet 迅猛发展的今天,电子邮件已经成为信息交换的重要载
当前,远程教育发展的主流是运用计算机网络技术和多媒体数字技术,在数字化环境下进行交互式的学习,也就是网络教育。由于我国的教育规模大、教育资源相对不足,因此,在我国大
本文针对远程教育中存在的教学质量问题和个性化服务需求,结合胜利油田远程教学系统,探讨了采用数据挖掘的方法,通过对远程教育过程中积累的历史数据的分析和挖掘,产生出有利于改
网格计算是近年来得到快速发展的广域网络计算技术。研究人员试图将很大范围上地理分布的异构计算机系统集合在一起形成一个大规模的计算平台,我们称之为网格(Grid)。通过这种
目前基于Internet 的网络战已成为信息战的一种重要作战样式,网络攻击技术是网络战中不可或缺的武器。为了在未来信息战中掌握主动权,现阶段研究和发展网络攻击技术具有重要
近年来,作为一种相对于传统访问控制策略具有显著优势的访问控制模型,RBAC已经受到人们越来越多的重视,因此也吸引了大批的研究者投入到了RBAC策略的研究中。随着互联网时代的到
目前,数据管理、基于UML的建模方法及客户机/服务器技术广泛应用于数据管理系统及数据库的设计当中。本课题研究了这三项技术在网络游戏数据管理系统中的应用:一、数据管理技术
本论文主要研究了在整个网络平台范围(面向电信运营商所辖网络)内构建安全支付系统框架的问题。从构建密钥管理系统、安全协议设计及安全协议形式化分析等几个角度角度,对如何构
Linux是当前主流通用操作系统之一,具有源码开放、多平台支持、计算机资源丰富等优点。但实时性要求强的应用场合,Linux往往难于满足要求。因此,实时Linux成为一个重要的研究课
实际工程优化问题往往具有多极值、高度非线性、大规模、不连续等特点。传统优化算法往往难以适用于上述情形或得不到满意解。以进化算法为典型代表的随机性优化算法由于在寻