论文部分内容阅读
数据挖掘技术随着当前互联网中与日俱增的海量数据不断地热门起来,已成为当前信息科学领域中的热门研究课题。关联规则挖掘逐渐受到研究者的追捧,成为数据挖掘的热门研究方向,应用领域也得到不断扩展,从销售营销到医学医药等各种领域,主要是因为关联规则能够挖掘事务数据库中项集之间所隐藏的内在关系。关联规则挖掘研究得到了不断发展,各种关联规则挖掘算法如雨后春笋般产生,但是Apriori算法和FP-growth算法在关联规则挖掘算法中知名度最高。后续许多研究都是在上述两个经典算法的基础上加以改进和完善。Apriori算法需要对数据库进行多次扫描,面对海量数据其挖掘效率不高,很多时间都耗费在扫描海量数据和从大量候选项集中获得频繁项集上。FP-growth算法只需要扫描数据库两次,构造FP-tree树,然后在FP-tree结构上进行递归处理就可以完成频繁项集的挖掘过程,FP-growth算法虽然避免了多次扫描数据库和生成大量候选项集的问题,但是对于增量数据及最小支持度值发生变化时,FP-growth算法就无法处理。由于各领域的业务数据一直处于不断积累、增长及变化之中,伴随着数据库不断更新,数据库中存储的数据不断发生变化。由此需要对更新后的数据不断进行挖掘,这导致一些挖掘算法不再适应当前的需求,尤其难以适应不断变化的需求,如事务数据库中的数据发生增量或减量变化,最小支持度和置信度发生变更等。由此需要研究出一种能够有效应对变化,又能高效灵活地完成挖掘任务的方法和模型。目前大多数关联规则更新挖掘算法是基于FP-tree结构,但是基于FP-tree的算法需要两次扫描数据库,相关更新算法同样亦需多次重复扫描数据库。针对这些缺点,本文主要开展了下列研究:(1)提出了一个基于SP-tree (Shared Pattern Tree)的关联规则更新挖掘算法。利用该算法挖掘时只需扫描原数据库和新增(减少)数据库各一次,建立、修改并更新SP-tree,后续的挖掘工作在SP-tree结构上完成;(2)给出了数据发生增量(减量)变化时频繁项集的挖掘方法。通过扫描增量(减量)数据集,修改并更新SP-tree,进而开展数据挖掘;(3)给出了最小支持度发生变化频繁项集的挖掘方法。针对最小支持度发生变大或变小的情况,本文探讨了基于SP-tree的相应的挖掘方法;(4)用实验说明了本研究的有效性及基于SP-tree的挖掘方法在更新挖掘时的高效性。最后,本文给出了未来的研究展望。