论文部分内容阅读
伴随着互联网技术在中国的迅猛发展,人们的日常工作和生活越来越离不开互联网,同时也促进了互联网的进一步发展,但是随之而来的是大量web数据的产生,这些数据广泛存在于web站点中,近些年来越来越多的人们关注于这些数据,希望从中获取有用的信息,比如挖掘出用户访问习惯,和一些潜在可能被大量访问的页面从而修改优化站点结构,增加访问量。数据仓库是基于关系型数据库的大量的数据存储问题而提出的一种解决方案,同时人们逐渐把数据挖掘技术与web技术进行了融合,从而产生web数据仓库和web数据挖掘技术。本文提出数据仓库技术与web日志挖掘技术相结合。首先介绍了Web数据挖掘的产生背景,系统地阐述了Web数据挖掘的思想、理论和方法,对Web日志挖掘过程及其挖掘过程中各环节的关键技术进行了深入的分析探讨,重点分析了Web日志挖掘的数据预处理技术,提出了改进的用户会话识别方法。然后提出了一种适合普遍网站的数据仓库逻辑模型,并在此逻辑模型的前提下,进一步建立相应的物理模型,使用数据预处理得出的用户会话序列作为分析的对象。最后提出改进的Apriori算法,把通过在数据仓库中进过多维分析得出的用户会话序列作为算法的数据,进行挖掘分析出用户的访问习惯,从而改进站点结构增加点击率。本文的创新如下几个方面:(1)提出了改进的用户会话识别算法,使分析出的用户会话序列更加精确。(2)将数据仓库技术引入web日志挖掘中,建立的WEB数据仓库的多维模型,实现能从多角度分析。(3)将数据仓库的分析数据设定为用户会话序列,而非单一的点击量,并且将多维分析出的用户会话序列作为用于挖掘算法的数据,挖掘出的结果更能反映用户习惯。(4)考虑到用户会话序列中的单个项比较多,如果采用关联规则中的Apriori算法,需要大量重复访问数据库,本文提出了改进的Apriori算法,在用户会话序列中的单个项比较多的情况下能够减少数据库访问次数,增加算法运行的效率。