论文部分内容阅读
近年来,数据挖掘技术的研究引起了国际人工智能和数据库等领域专家与学者的广泛关注。在事务数据库中挖掘关联规则是数据挖掘领域中的一个非常重要的研究课题。目前以Apriori算法为基础所推导出的各种数据挖掘技术,大多是针对静态的数据,从中挖掘出用户感兴趣的关联规则。这种方法虽然实现简单,但是它没有充分利用已经获得的发现结果,太浪费计算时间及硬件I/O,因此效率非常低下。
本文所提出的LIUA算法充分利用已经获得的发现结果,将已经挖掘过的数据科学地、妥善地处理及保存,使得新增数据时能重复利用,这样大大提高了时效,在商业运用上非常有价值。
1.研究了挖掘关联规则的经典算法Apriori以及常用的几种增量关联规则的挖掘算法FUP、IUA,分析了它们的执行效率,指出了其效率低下的主要原因是由于多次迭代扫描、每次迭代产生数目更大的频繁集造成的。
2.在分析总结了原有算法的基础上,提出了LIUA算法。该算法只扫描一次数据库,就能把符合要求的关联规则挖掘出来,摆脱了传统算法多次迭代的不足,采用以空间换取时间的技术,大大提高了挖掘效率。同时将挖掘出来的结果有效地保存,以便下次增量挖掘时充分利用,而且还可以减少传统挖掘算法“少挖”、“漏挖”的现象。
3.实现了LIUA算法。通过对其测试结果与Apriori算法的测试结果进行比较,进一步证明了该算法的高效性以及挖掘的充分性。
文中描述了LIUA算法处理AVIM系统收集的数据的过程,对挖掘出的关联规则进行了分析,并用来指导人们的生活,指出LIUA算法在AVIM系统应用中的现实意义。