关联规则挖掘算法在web日志挖掘中的应用研究

被引量 : 0次 | 上传用户:llzx373
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络在人们日常生活中的普及,越来越多的机构、团体和个人在Internet上发布和搜寻信息,使得Web上储存了海量的数据,这些数据为数据挖掘提供了丰富的资源。另一方面,Web数据的一些特性也对数据挖掘提出了巨大的挑战,这些挑战推动了数据挖掘技术在Web数据上的应用研究,即Web数据挖掘。Web数据挖掘是指利用数据挖掘或机器学习的方法从Web上大量的数据资源中发现有用知识。Web日志挖掘主要从web使用数据中发现使用模式,以便更好的理解用户并为基于网络的应用系统提供更好的服务。本文主要研究关联规则挖掘在Web日志挖掘中的应用。首先介绍了Web数据挖掘的含义、流程和分类。其次,本文对Web日志挖掘进行了深入的探讨,这一部分主要讨论了Web日志数据的采集和预处理的各个步骤以及各步骤常用的技术方法,另外本文还给出了Web日志模式发现过程中常用的技术以及Web日志挖掘的应用领域。之后,本文仔细研究了数据挖掘中的关联规则挖掘,文中先是给出了关联规则挖掘的基本概念,然后对两个经典算法Apriori和Eclat进行研究,重点给出了两个算法的思想和执行过程并分析了它们的优越性和局限性。在两个算法的分析结果上,本文给出了一个Eclat改进算法,并通过在各种数据集上的实验验证改进算法的性能,实验结果表明,本文给出的Eclat改进算法对稀疏数据集有较为理想的改进。最后,本文基于Web日志挖掘理论和关联规则挖掘算法给出了一个基于关联规则挖掘算法的Web日志挖掘原型系统的实现,并利用该系统对NASA HTTP数据集进行了挖掘。
其他文献
设事业进程中的重大历史任务。农民是新农村建设的主体和依靠力量,要进行新农村建设就必须大力培育新型农民,把农村巨大的人口压力转化为人力资本优势,持续不断地形成推动建
将渗入民间幼儿体育游戏的教学和按教育部幼儿园体育教学大纲的教学加以对比,发现幼儿园体育教学时, 选用相当量的民间体育游戏的教学和按教育部幼儿园体育教学大纲进行的教
<正> 维多利亚湖位于东非,湖面水域68,800平方公里,是世界第二大湖泊。肯尼亚位于湖东北角,只拥有12%但却是最富有的一段湖岸,湖区5万渔民中,有近一半是肯尼亚人。坦桑尼亚拥
目的:间质性肺疾病为呼吸系统常见病、难治病之一,严重危害着人类的健康,在一定程度上影响了患者的生存质量。本病起病隐匿,易反复发作,治愈率低,其共同特征包括弥漫性肺泡炎
中小企业在选择国际创业模式时需要对多个因素进行综合考虑。本文根据大量文献研究,并结合当前形势下对国际创业的新要求,将中小企业的国际创业模式分为四种类型即贸易型创业
在中学的体育教学过程中,学生是主体,师生关系从多方面影响着中学生的健康成长,这也是由体育教师在教学中的地位决定的。针对现实中由于各种原因造成体育课堂中师生关系紧张
井下中央泵房作为煤矿井下排水系统的关键设备,担负着煤矿井下安全生产的重任。因此,设计一个高可靠性、高稳定性的井下泵房在线监控系统,对煤矿井下泵房运行进行安全监控,是
我国很多偏远的农村小学中存在着包班教学现象,但是在实施条件、实施目的上与发达国家的"包班制"有些不同。本研究以台州市仙居县的6名农村小学新教师为样本,通过访谈的形式,
随着技术的发展和人们对移动性需求的增加,移动互联网应运而生。在移动互联网发展初期,学者们对其研究多集中在移动互联网采纳行为的影响因素上。目前,随着移动互联网用户规