论文部分内容阅读
由于应用性数据的爆炸式增长(如商业分析),及计算机的软硬件技术的发展日趋完备,近几年来数据挖掘已经成为应用最广泛的数据分析工具。数据挖掘需要配合许多其它领域的技术才能得到完善有效的结果,其中包括机器学习,人工智能,统计学原理,数据库系统,数据可视化等。如何对Web上的海量信息进行复杂的应用,解决数据的应用质量问题,充分利用有用的数据,是当今数据挖掘技术的重要的应用。本文在总结前人的研究成果的基础上,针对Web使用挖掘进行了研究,主要内容归纳如下:
(1)网站用户的浏览行为不确定性导致根据现有的从Web日志文件挖掘出的事务模式来预测用户行为越来越困难,并且随着决策支持系统(DDS)的出现和Web使用挖掘技术的发展,数据挖掘的主要研究重心不仅仅局限在算法的研究上,挖掘数据源渐渐成为研究的焦点。因此本文引入一种新的数据类型--浏览行为数据(BAD),给出了BAD的明确定义,用于提高传统Web使用挖掘的质量。并提出了一个BAD数据收集框架,从而可以像Web日志文件一样收集BAD并与现有的Web日志整合。最后通过一个电子商务程序的实例,说明BAD能潜在增加现有Web事务挖掘算法的有效性,BAD的引入开辟了Web使用挖掘和知识发现的一个新的领域。
(2)目前大多数挖掘关联规则的算法是静态挖掘算法,在实际Web应用中新的事务都是增量地更新入数据库,现有的算法已经满足不了这种高速的增长。在本文中提出了基于FUFP-tree和Per-Large-Itemset的增量挖掘算法Pre-FP,该算法在更新的事务数目未超过设定阀值的情况下不需要重新扫描原始数据库,特别是每次新增的数据量相对原始数据库比较小的情况下,Pre-FP算法在更新频繁模式树的结构上取得了良好的执行效率。