论文部分内容阅读
与传统的统计、查询方法相比,数据挖掘是人工智能、模式识别、数据库、机器学习以及管理信息系统等形成的交叉学科。数据挖掘是一个新兴的边缘学科,其应用领域非常广泛,并且具有良好的应用前景。本文概述了关联规则挖掘,尤其对多最小支持度关联规则挖掘进行了深入研究分析,主要包括以下内容:关联规则研究分析。概述了关联规则挖掘的基本概念,分类讨论了关联规则挖掘算法,并分析了其中几种典型算法;对多最小支持度关联规则挖掘的基本理论、挖掘算法和研究现状进行了研究分析。针对多最小支持度关联规则挖掘,本文提出了一种多项目支持树(MIS-tree)结构模型,它能够储存关于频繁模式的关键信息。同时提出了一种基于MIS-tree的多最小支持度关联规则挖掘算法,即CFP-growth算法,用以挖掘所有的频繁项集。针对多最小支持度设置难的问题,本文提出了一种保持MIS-tree结构的稳定算法,该算法不需要再次扫描数据库,只需要不断的运行挖掘算法来调整支持度,以便对所有项目设置一个适当的支持度阈值。基于合成数据对CFP-growth算法的性能与Apriori算法、MSaprori算法、FP-growth算法进行了比较实验,并对实验结果进行了分析。结果表明CFP-growth算法挖掘效率高于原MSapriori算法。并对保持MIS-tree结构的稳定算法进行实验测试,结果表明比重新构建MIS-tree要节省大量的时间。