Web预取中的数据挖掘研究

来源 :上海师范大学 | 被引量 : 0次 | 上传用户:jingkewang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
虽然近几年来网络速度有了很大的提高,但是由于接入Internet 的用户数量急剧增加以及Web 服务和网络的固有延迟,使得网络越来越拥挤,用户浏览网页时经常会出现网页打开过慢的问题。如果仅仅靠通过对网络硬件设备的提高来解决网络速度问题已经变得不符合实际。本文在研究了Web 预取技术的基础上,提出一种新的预取策略,这种新的预取策略可以加快用户浏览网页的速度。本文首先分析了目前已经存在的Web 预取方法,然后利用数据挖掘技术,建立了Web 预取模型。在Web 预取模型的基础上,分别定义了二元预取策略和多元预取策略。二元预取策略比较简单,但是由于需要多次进行分析和预测,在实际应用中效率低下。由于用户浏览网页的兴趣是一个兴趣链,他会根据网页提供的链接一直访问下去,因此可以对用户的兴趣进行挖掘,从而得到用户一系列的兴趣模型。有了这些兴趣模型,就可以在用户浏览一个网页时对一系列网页进行预取,而不用以后再进行分析和预测,这就是多元预取策略。多元预取策略大大减少了预测的次数。本文最后利用VB.Net 开发了一个预取试验平台,并对二元预取策略和多元预取策略分别进行分析,验证了其优化的性能。试验表明,预取策略对提高用户浏览网页的速度十分有效。
其他文献
集成电路技术在近10多年来飞速发展。集成电路的集成规模越来越大,已经可以把一个完整的电子系统集成到一个芯片上,即集成电路已经进入了片上系统(SoC)时代。SoC设计的核心技
WCDMA是第三代移动通信系统的主流技术之一,能够提供统一的全球范围内覆盖和使用的系统,支持从话音到分组数据到多媒体业务,能够根据需要提供带宽。HLR即归属位置寄存器(Home
基于免疫系统及危险模式理论的基础上,本文讨论了数据挖掘理论的框架体系,借鉴生命免疫科学中危险模式的免疫模型理论,围绕基于危险模式的免疫算法、关联规则挖掘和数据聚类分析
随着信息技术,特别是因特网的高速发展,计算机病毒的传播速度和影响范围都在不断增加,计算机病毒对计算机安全构成的威胁也日益突出。然而,传统的病毒检测方法,已经不能对抗
软件定义网络(Software Defined Network,SDN)是一种把控制层和数据层相分离的新型网络管理架构。控制层上的控制器集中管理数据层的网络设备,数据层中的网络设备仅仅根据控
计算机与信息技术的飞速发展,使人们能以更快、更廉价的方式获取和存储数据,从而也使得存储的数据的数量飞速增长。这些数据蕴藏着许多对我们的工作有重要指导意义的信息。数
部队的经常性思想政治工作是部队思想建设的基础,是最普遍、最经常的工作。但由于新干部在工作中缺乏经验,采取的方法欠科学,直接影响工作进展的效果和质量。因此运用现代信息技
解决各类数据库系统的异构问题是80年代中期以来数据库界的研究热点,并提出了很多的解决方案。对地理上分布的多个异构数据库,在尽可能少地影响其本地自治性的基础上,实现异构数
网络空间信息系统是当今GIS发展的必然趋势,目前的研究工作主要集中在利用Internet技术在Web上发布空间数据提供给用户浏览和使用。随着Web上空间数据量的快速增加,以及各个W
本文的重点在于研究能够适应上述并行事务处理系统的数据存储分配策略。本文首先描述了数据库并行事务处理系统的整体结构和工作原理。然后,通过考虑由关系之间的关联而导