Web日志中连续频繁访问路径挖掘算法研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:heaweawelf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Web挖掘是计算机科学一个新兴的研究方向,而Web频繁访问路径挖掘是其中一个重要的研究方面,具有很强的现实意义。频繁访问路径可分为连续和非连续两种,由于访问路径受站点引用结构的限制,本身具有连续的特点,因此,在某些情况下,挖掘连续频繁访问路径更具有实际意义。分析结果表明,连续频繁访问路径的挖掘可使用通用的序列模式挖掘算法,但是这类算法挖掘效率较低,且只能得到频繁访问路径;而专用的挖掘算法效率虽高,但适用的领域太窄,只能在最大前向引用集中进行挖掘。为了解决这一问题,对访问路径的性质进行研究,然后结合所要解决的问题域,给出了一种能从普通Web日志中挖掘出连续频繁访问路径的算法。该算法对WAP-Tree(Web Access Pattern Tree)进行了改进,设计了一种新的数据结构IWAP-Tree (Improved Web Access Pattern Tree)来压缩访问序列空间和记录模式挖掘所需的全部信息;同时,抛弃了传统的自下而上、利用连接、剪枝来生成频繁模式集的方法,而采用分区搜索的方式,为每个频繁节点构造一棵后缀树,通过遍历该后缀树挖掘出连续频繁访问路径。采用这种方法进行挖掘,无需生成候选集,而且一次就可以挖掘出所有以根节点为后缀的连续频繁访问路径。设计并实现了一个实验系统,并利用该系统比较了WAP算法和作者提出的PAP-Mine(Postfix Access Patterns Mine)算法在挖掘时的内存和时间开销。实验表明,PAP-Mine算法挖掘效率要高于WAP算法,且相对于后者可言, PAP-Mine算法在时间消耗和内存占用方面表现得更加稳定。
其他文献
汽车底盘测功机是一种大型室内台架式汽车性能检测设备,其信号检测系统与数据传输系统是决定测功机试验性能好坏的关键因素。我校于上世纪90年代自行研制开发了国内第一台大
近年来,随着数据库应用领域的扩大和Internet发展面临的数据安全问题,不仅要求关系数据库管理系统扩展支持对象模型等,而且对数据库应用的安全性提出很高的要求。国产安全关
目的 针对倍他乐克在冠心病心绞痛老年患者临床治疗中的作用进行实验分析.方法 选取2018年3月至2019年4月来本院治疗的冠心病心绞痛老年患者180例,将其根据服用药物的不同分
“感谢农村党员大培训为我解决了技术及启动资金难题,让我走上了致富路!”作登瑶族乡村民韦业捌一语道出了田东县开展农村党员大培训活动的实效。韦业捌以该县“党员互助基金
用户界面是计算机应用系统的重要组成部分,它是人机交互的最主要途经。随着计算机硬件和软件的反展,人们对用户界面的要求越来越高。然而,开发出良好的用户界面却是一项艰苦的工
1966年6月,湖南省长沙市零陵县前进人民公社四队80多个知青正在田间地头劳动,突然,队长宣布了一个令人振奋的消息:“国家农垦部长,当年南泥湾开荒英雄王震将军和中共中央中南局第一书记陶铸同志到我们前进公社视察来了,晚上要和全社知青见面!”   收工后,我们急忙梳洗打扮,匆匆赶到公社社部。宽敞的大礼堂里聚满了知青。忽然,礼堂外响起热烈掌声,我们看见省委一大群干部簇拥着两个首长来到礼堂。走在前面高高瘦
对等网络特有的资源共享方式,使得P2P流量增长迅速。P2P技术已经应用到互联网服务的各个领域,主要包括文件共享、流媒体播放、分布式计算、游戏娱乐等。事实表明,P2P流量已经占
随着近年来全球网络带宽的飞速增长,对网络设备尤其是边界接入设备的性能要求越来越高,与此同时,日新月异的网络应用又对网络设备功能上的灵活性、可维护性提出了更高的要求
随着新升格院校的逐渐增多,而生源的日益减少,高职院校的竞争压力也越来越大。在高校中使用办公自动化系统以提高办公效率是每个学校的主要规划方向。而校园网的飞速发展,也
随着并发系统在现代软件开发中的应用日益广泛,并发程序的调试、测试技术的研究已经引起了人们的高度重视。但是由于并发行为的复杂性以及不确定性,使得并发程序的开发、测试