论文部分内容阅读
随着网络在人们日常生活中的普及,越来越多的机构、团体和个人在Internet上发布和搜寻信息,使得Web上储存了海量的数据,这些数据为数据挖掘提供了丰富的资源。另一方面,Web数据的一些特性也对数据挖掘提出了巨大的挑战,这些挑战推动了数据挖掘技术在Web数据上的应用研究,即Web数据挖掘。Web数据挖掘是指利用数据挖掘或机器学习的方法从Web上大量的数据资源中发现有用知识。Web日志挖掘主要从web使用数据中发现使用模式,以便更好的理解用户并为基于网络的应用系统提供更好的服务。本文主要研究关联规则挖掘在Web日志挖掘中的应用。首先介绍了Web数据挖掘的含义、流程和分类。其次,本文对Web日志挖掘进行了深入的探讨,这一部分主要讨论了Web日志数据的采集和预处理的各个步骤以及各步骤常用的技术方法,另外本文还给出了Web日志模式发现过程中常用的技术以及Web日志挖掘的应用领域。之后,本文仔细研究了数据挖掘中的关联规则挖掘,文中先是给出了关联规则挖掘的基本概念,然后对两个经典算法Apriori和Eclat进行研究,重点给出了两个算法的思想和执行过程并分析了它们的优越性和局限性。在两个算法的分析结果上,本文给出了一个Eclat改进算法,并通过在各种数据集上的实验验证改进算法的性能,实验结果表明,本文给出的Eclat改进算法对稀疏数据集有较为理想的改进。最后,本文基于Web日志挖掘理论和关联规则挖掘算法给出了一个基于关联规则挖掘算法的Web日志挖掘原型系统的实现,并利用该系统对NASA HTTP数据集进行了挖掘。