论文部分内容阅读
从相当规模中的数据中发现数据的模式规律是数据挖掘的意义所在,数据挖掘作为一门学科,刚开始时是针对传统意义上的数据库中的数据而言的。伴随着数据库挖掘技术的成熟,人们越来越认识到这门学科的潜在价值,也投入了越来越多的研究和关注,数据挖掘的确也给人们带来了很多丰硕的成果。近几年来,计算机的迅猛发展带动了以计算机为平台的互联网的崛起,互联网的崛起引起了网络Web数据量的不断增大,人们将数据挖掘技术也应用到了Web数据上,但是由于Web上数据的庞大性和异构性,进行Web数据挖掘面临着很多的问题和难点。Web数据挖掘按照挖掘的对象的形式不同可以分为对Web内容的挖掘、对网页链接结构的挖掘和对各种日志信息的挖掘,本文主要结合传统数据库的序列模式挖掘思想,对Web的访问日志信息进行分析和研究,序列模式挖掘是数据挖掘方法的一种,它从数据的前后顺序的序列的角度入手进行数据的挖掘。但是从Web上获得的访问日志信息是不能直接加工的,因为这些日志信息杂乱无序、包含了很多挖掘过程不需要的和有异常的数据,如果不去掉或者处理这些数据,挖掘过程难以进行,挖掘结果也是难以符合用户需求的,所以对数据的预处理过程是必不可少的,通过预处理,将原始数据去冗、整理、完善,以符合挖掘算法的要求。以序列模式现有算法为基础,本文提出一种改进的针对Web日志挖掘的算法,该算法借鉴位图的思想,设计了一种存储数据的结构形式,在这种结构的辅助下,对Web访问日志进行挖掘不仅去掉了产生候选序列的过程从而节省了开销,而且对序列的支持度计算也更加的快捷。同时,改进算法还吸收了序列模式挖掘的PrefixSpan算法的前缀概念,以前缀为引点,在扫描数据库的过程中不断修改辅助存储结构的值来减小序列范围。通过实验数据的比较,改进算法性能上有明显提高,但是不能忽视的是,该算法在处理中小规模数据时处理效率很高,但在处理大规模数据时效率提升的就不是很明显。