论文部分内容阅读
聚类分析是数据挖掘中一种重要的方法,模糊关联规则挖掘算法是数据挖掘的一个主要研究方向,随着模糊C-均值聚类算法(Fuzzy C-means,FCM)的提出,将FCM算法应用于挖掘模糊关联规则成为数据挖掘新的重要研究领域。本文主要研究模糊C-均值聚类算法以及模糊关联规则算法,首先提出了一种基于数据驱动FCM的预处理方法,而后在此基础上分别对传统的关联规则挖掘Apriori算法和加权模糊关联规则算法提出了两种新的改进算法,本文的主要工作如下:1、提出了基于数据驱动FCM的预处理方法(data-driven fuzzy c-means,DD-FCM)。此方法可以把定量属性转换为二进制属性,使用数据驱动方式产生模糊隶属度函数和模糊分区。实验结果表明使用DD-FCM预处理方法产生的模糊隶属度函数可以在没有专家预先给出的情况下正常工作,并且预处理性能要明显优于BIRCH和CLARANS硬聚类算法,从而说明对于大型数据库而言,该方法是高效可行的。2、提出了基于DD-FCM的Apriori算法(An AprioriAlgorithm Baesd on data-driven fuzzyc-means,DD-FCMA)。通过处理由DD-FCM方法产生的模糊集,并运用Apriori算法的向下封闭性性质(DCP)来挖掘模糊关联规则。它克服了传统Apriori算法在处理大型数据库时挖掘时间上的缺点,并且通过此方法挖掘出的规则具有强关联性和语义性。3、提出了基于DD-FCM的加权模糊关联规则挖掘算法(Weighted fuzzy association rulesbased on data-driven fuzzy c-means,DD-FCMW)。该算法不依赖于专家给定的隶属度函数,并解决了由加权关联规则带来的向下封闭性不成立的问题。实验结果表明DD-FCMW算法相比传统的加权关联规则算法可以产生更多的频繁项集,该算法适用于包含布尔型和数值型数据的大型数据库的挖掘,算法具有良好的性能和可伸缩性。