论文部分内容阅读
传统的数据挖掘是从静态的数据库中发现知识。然而,数据仓库往往是动态变化的,新的数据积累可能导致以前采用的挖掘算法所发现的知识失效,因此发现的知识或模式也需要动态维护,及时更新。动态数据库与静态数据库挖掘的一个本质区别在于人们对于新增的事务可能更感兴趣。跟踪这种动态变化将使管理者在进行决策时更加受益。增量算法是在已有的挖掘结果的基础上,利用已经获得的知识对数据的增量部分进行挖掘,而不是对数据增量后的整体数据库进行重新挖掘,从而大大节省知识维护的开销。Web日志中数据的规模往往很大,日志记录每时每刻都在不停地产生,用户的访问模式也随之而变化,而这种用户访问模式的变化趋势对于网站管理者而言是非常重要的。由日志记录构成的数据库就是典型的动态数据库,面对这种海量的动态数据,需要寻找高效的增量挖掘算法,极大地降低平均搜索时间和空间,是十分迫切而且必要的。本文的研究正是针对海量的Web访问信息所构成的数据库的动态特性而展开,研究如何利用Web访问信息的动态特性,寻找快速高效的增量挖掘算法,重点研究Web挖掘中聚类、分类和关联规则等若干关键问题的理论和方法。本文对动态数据库增量挖掘技术的国内外研究状况作了系统、全面的归纳、总结和分析,并对典型的应用领域Web使用挖掘的研究现状进行了回顾。在此基础上,重点研究了模糊层次聚类算法、神经网络聚类分类模型、基于聚类划分的并行关联规则挖掘方法以及它们的增量更新算法,主要贡献和创新点如下:1.利用模糊集合的理论,提出了基于模糊连接度的层次聚类算法FHC。首先采用基本的划分方法将大型数据集划分成子类,然后分析子类间的连接模糊度,构建子类模糊图。通过对模糊图进行λ截图,得到模糊图的连通分支,从而得到聚类结果。FHC算法能对任意形状的簇进行有效聚类。并将该方法与其他算法进行了比较,无论在聚类质量还是运行时间上都具有优势,是一种快速高效的聚类方法。2.对FHC算法进一步扩展,提出了该算法的增量挖掘方法IFHC和面向大型数据库的分区聚类算法PFHC。IFHC通过对受影响的邻域集合进行分析,高效地处理动态增量数据。PFHC针对密度不均匀区域或者大型数据集合对于内存容量不足的需求而提出的基于数据分区的模糊层次聚类算法,实验结果表明了这两种算法作为对FHC算法的扩充,具有很好的聚类效果。3.结合自适应谐振理论和竞争型神经网络的特点,提出了一种新型的基于竞争型神经网络的SIN模型,该方法综合了自适应谐振理论和竞争型神经网络的特点,并在隐含层采用了Hebb学习规则进行神经元的侧学习,既能保证原有记忆不受影响,又能对新的信息加以记忆,同时又克服了ART网络对噪音敏感的缺点,具有在线学习的功能,能够实现动态数据的聚类。4.传统的对传网络模型和学习算法中,隐含层神经元个数过多将产生死神经元,过少又使得竞争层不稳定,网络功能退化。针对这个缺陷,提出了一种自适应地确定隐含层神经元个数的ASCPN网络模型和学习算法,使得竞争层中每一个神经元节点都能充分发挥作用,使得网络能实现运用最少的神经元,达到要求的性能。并在竞争层采用软竞争机制,在一定程度上克服了初始权值选取敏感的问题,虽然竞争层的权向量计算比CPN复杂,但是泛化能力显著提高,与其他的基于软竞争的算法相比,收敛速度快,模拟精度高,能更好地逼近模拟函数,提高了网络的使用效率,使得网络的性能得到很大的提高。5.提出了基于聚类划分的最大频繁项集挖掘算法PARUC和它的动态增量更新方法IPARUC算法。FP-tree是一种快速有效的关联规则挖掘方法,它采用建立FP-tree的方法将信息集中到压缩树上,不需要产生候选项集。该方法使用最不频繁的项作后缀,大大降低了搜索开销。但是,面对海量数据,构造基于内存的FP-tree是不现实的,而且很难实现增量数据的挖掘。我们采用快速聚类的方法对海量数据进行划分,使得划分后每部分数据具有一定程度的相似性,从而压缩局部FP-树。同时对FP-tree的构造算法进行改进,通过节点交换的方式压缩树的规模,以达到最佳压缩效果。并讨论了在增量情况下的最大频繁项集的动态更新方法,采用“剪枝-交换-接回”的方法解决新事务的插入问题。6.提出了基于Web日志挖掘的增量式分析系统的系统框架,并实现了原型系统Weblog Analyzer。在该原型系统中,实现日志文件的预处理,最大频繁项集的挖掘、分类和聚类分析,并能对增量日志文件进行处理,同时将预处理后的增量数据进行最大频繁项的增量挖掘,增量的分类模型的建立和增量聚类分析,动态更新知识库,为用户推荐感兴趣的内容。最后,本文对作者所做的工作进行了归纳总结,并提出了进一步研究的方向。