论文部分内容阅读
随着数据库技术的飞速发展以及数据库管理系统的广泛应用,各个企业和部门通过自己的数据库管理系统,经过长年努力,已经积累了越来越多的数据。由于数据量庞大且分布于不同的地理位置,以及数据库系统中分析方法的严重缺乏,人们无法发现数据中隐藏的相互联系,更无法根据当前的数据去预测未来的发展趋势。数据挖掘是指从巨量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,其目的就是要从大量数据中找出有意义的模式。 本文详细讨论关联规则挖掘的理论及方法,对如何高效的挖掘关联规则,主要是分布式关联规则进行了深入研究。本文在分析了现有的关联规则挖掘算法及分布式关联规则挖掘算法之后,提出了几个高效的分布式关联规则挖掘算法。 现有的分布式关联规则挖掘算法大多有通信量过大、数据库扫描次数过多的缺点,针对这些问题提出了四个分布式关联规则挖掘算法:PDDM算法,GDS算法,DFP算法和MGMF算法。PDDM算法用接近于实际的频繁项集的通信量,改善了以往分布式算法中通信量过载、算法难于拓展的问题。GDS算法与DFP算法相对于基于Aprioir的算法减少了数据库扫描的次数,相对于其他的分布式算法如FDM算法则减少了算法的通信量,比其他的分布式算法更具拓展型和并行性。MGMF算法不同于以往的最大频繁项集挖掘算法需要不断的更新最大频繁繁项集集合,而是利用高度压缩的FP一树顺序地挖掘出所有的最大频繁项集,只需要扫描数据库两遍,就将所有的最大频繁模式挖掘出来。 本文的主要创新在于: (1)对DDM算法的改进,提出了带权值的PDDM算法,减少了分布式算法的通信量,也提高了算法的拓展性。 (2)将PDDM算法分别和Sampling算法、FP增长算法相结合,提出了GDS算法和DFP算法。GDS算法和DFP算法减少了数据库的扫描次数,提高了分布式算法的拓展性、并行性及挖掘效率。 (3)基于高度压缩关联信息的FP-树结构提出MGMF算法,MGMF算法避免了以往最大频繁项集挖掘算法反复更新候选项集的缺点,而且超集的检测比较