基于数据仓库的Web日志挖掘研究与应用

被引量 : 0次 | 上传用户:hygensos
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着互联网技术在中国的迅猛发展,人们的日常工作和生活越来越离不开互联网,同时也促进了互联网的进一步发展,但是随之而来的是大量web数据的产生,这些数据广泛存在于web站点中,近些年来越来越多的人们关注于这些数据,希望从中获取有用的信息,比如挖掘出用户访问习惯,和一些潜在可能被大量访问的页面从而修改优化站点结构,增加访问量。数据仓库是基于关系型数据库的大量的数据存储问题而提出的一种解决方案,同时人们逐渐把数据挖掘技术与web技术进行了融合,从而产生web数据仓库和web数据挖掘技术。本文提出数据仓库技术与web日志挖掘技术相结合。首先介绍了Web数据挖掘的产生背景,系统地阐述了Web数据挖掘的思想、理论和方法,对Web日志挖掘过程及其挖掘过程中各环节的关键技术进行了深入的分析探讨,重点分析了Web日志挖掘的数据预处理技术,提出了改进的用户会话识别方法。然后提出了一种适合普遍网站的数据仓库逻辑模型,并在此逻辑模型的前提下,进一步建立相应的物理模型,使用数据预处理得出的用户会话序列作为分析的对象。最后提出改进的Apriori算法,把通过在数据仓库中进过多维分析得出的用户会话序列作为算法的数据,进行挖掘分析出用户的访问习惯,从而改进站点结构增加点击率。本文的创新如下几个方面:(1)提出了改进的用户会话识别算法,使分析出的用户会话序列更加精确。(2)将数据仓库技术引入web日志挖掘中,建立的WEB数据仓库的多维模型,实现能从多角度分析。(3)将数据仓库的分析数据设定为用户会话序列,而非单一的点击量,并且将多维分析出的用户会话序列作为用于挖掘算法的数据,挖掘出的结果更能反映用户习惯。(4)考虑到用户会话序列中的单个项比较多,如果采用关联规则中的Apriori算法,需要大量重复访问数据库,本文提出了改进的Apriori算法,在用户会话序列中的单个项比较多的情况下能够减少数据库访问次数,增加算法运行的效率。
其他文献
酞酸酯(PAEs)是一类典型的内分泌干扰物,在我国城区河湖中PAEs污染超标相对严重,且污染呈上升趋势。本文旨在利用沉水植物对沉积物进行原位修复,探索沉水植物菹草根际微环境中PAEs
重力勘探和磁法勘探作为应用地球物理学的两个重要分支,通过探测地质体的重力场和磁场,来研究其密度差异与磁性差异并给出解释,达到研究地壳结构构造与勘探找矿的目的。然而,自然
本文对中西方的数字文化进行了比较,分析了中西方禁忌差异产生的原因。认为这是受宗教影响、历史与神话影响、民族文化心理影响而产生的差异。了解这些文化差异,有利于跨文化
《新华字典》是新中国成立以来第一部现代汉语字典,1953年出版至今,六十年间不断编、修,形成了科学、简明、规范、实用的特色,成为字典中的“国典”,越来越得到广大人民群众
本文阐述了手机的传播特质:从"移动性"到"身体延伸",进而论证了手机是身体回归的命题,并从工具理性视角进行了印证。指出当下信息技术将手机演化为人们日常化的智能工具,科技
随着互联网的快速发展,微博(microblogging)逐渐兴起。近几年来,微博逐渐渗入到人们生活的方方面面,人们不仅在微博中接受到各种各样的信息,还会主动的发布各种各样的信息,甚至表达
最近几年,移动通信和移动互联网成为当今世界发展最快的两大业务。伴随着3G网络的出现,人们对移动性信息的需求急剧上升,越来越多的人希望在移动的过程中高速地接入互联网,上传或
丙二醇作为一种重要的化工产品,主要用作生产不饱和树脂、聚氨酯树脂等的中间体。由于丙二醇吸湿性好且毒性又低,因而被广泛用于食品、医药、化妆品等领域。目前1,2-丙二醇主
颗粒材料在道路工程中非常常见,这类材料在振动时可以表现出奇异的,难以理解的现象。振动压实是使颗粒材料致密的主要手段,尤其是在道路工程中。然而目前对振动压实的研究仍然以