论文部分内容阅读
数据挖掘(Data Mining)又称为数据库中的知识发现(简称KDD),是从海量的数据中挖掘出隐含的、先前未知的、对决策有潜在价值的知识和规则。它是一门新兴的交叉学科,汇集了来自机器学习、模式识别、数据库、统计学、人工智能等领域的研究成果。聚类分析作为数据挖掘系统中的一个模块,既可以作为一个单独的工具以发现数据库中数据分布的深层信息,也可以作为其他数据挖掘分析算法的一个预处理步骤,因此研究如何提高聚类算法的性能具有重要的意义。K-means算法是一种典型的基于划分的方法,该算法的优点是思想简单易行,时间复杂性接近线性,对大规模数据的挖掘具有高效性和可伸缩性。但是该算法存在如下缺点:聚类个数K需要预先给定;算法对初值敏感;算法易陷入局部极小,并且一般只能发现球状簇。本文重点针对K-means算法对初值的依赖性,以及采用误差平方和函数作为聚类准则的局限性,提出了一种基于最大最小距离法的多中心聚类算法(Multiseed Clustering Algorithm based on Max-min Distance Algorithm,MCAMDA)。MCAMDA结合了多次抽样技术,在抽样聚类获得的备选聚类种子集合上再次利用最大最小距离法寻找到最佳初始聚类种子,较大程度上避免了初值选择的随机性。该算法实现了输入参数的知识领域最小化,即不要求用户事先给出聚类的个数。MCAMDA算法不同于K-means算法,它是一种新的多中心聚类算法,先暂时将大簇或者延伸形状的簇分割开,然后通过应用DBSCAN算法的小类合并策略将需要合并的小类进行了合并,体现了“任何一个延伸状或者较大形状的簇可以用多个聚类中心来联合代表”的思想。为了测试改进算法的聚类性能,本文将其与K-means算法在多个数据集上进行了对比实验,验证了改进算法在聚类质量和聚类稳定性上都远优于K-means算法。对MCAMDA算法的时间效率进行分析,发现DBSCAN算法类的扩展漫无目的,不适合小类合并阶段的具体应用。因此提出一种改进方法,使类的扩展有方向引导,并辅以实验表明改进后的算法在小类合并过程中能取得较高的时间效率。