论文部分内容阅读
随着信息技术迅速发展,电子政务的数据量激增。面对这些大量的数据,传统数据库技术难以发掘隐藏在数据中的有用信息,导致了数据仅被存储而得不到有效利用的局面。为解决这一问题,数据挖掘技术逐渐深入电子政务,取得了很好的效果。其中关联规则是数据挖掘领域的重要研究课题,它揭示项集之间的有趣关系,被广泛应用到商业,医疗,网络和通信,生物学等各个领域。关联规则的概念是于1993年Agrawal等人提出,他们基于对超市购物的分析,提出了经典的Apriori算法,引起国内外学者的关注和研究,也发展出更多的算法。其中应用最为广泛的是J Han等人提出的FP_Growth算法,算法不需要生成候选项集,具有较高的效率。本文的主要工作如下:(1)首先对FP_Growth算法进行分析,发现FP_Growth算法的三点不足,一是仍需遍历数据库两次,增加了开销;二是挖掘过程中需要多次遍历FP-树以及条件Fp-树,效率低;三是整个过程需要遍历项头表,而算法中项头表采用顺序结构,查询效率低,影响了算法的执行效率。(2)针对这几点不足,本文对FP_Growth算法进行改进,提出了新的结构FP-Table,基于FP-Table提出改进的TFP_Growth算法。算法仅需一次扫描数据库,通过二维表生成FP-Table,然后基于FP-Table挖掘频繁项集,在很大程度上提高了算法的执行效率。对TFP_Growth算法分析发现生成的二维表中存在很多无效数据,造成内存空间的浪费。为此本文提出两种优化方案,方案一是对二维表进行压缩,压缩之后所需空间仅为原来的1/2,大大提高了算法的空间效率。方案二是针对稀疏数据集,采用二次扫描数据库的方式,避免了生成无效数据,提高了处理稀疏数据的效率。(3)然后针对电子政务数据特点,对算法做相应的处理,通过信访示例说明在电子政务领域的应用过程,包括数据选择,数据预处理,数据挖掘,信息应用等过程。综合整个过程,提出了一个可以应用于电子政务系统的数据挖掘应用框架。(4)最后通过实验表明,TFP_Growth算法的时空效率都明显优于FP_Grow th算法。