论文部分内容阅读
数据挖掘是帮助我们从海量数据中发现有价值的信息的一种重要工具,而聚类分析又是数据挖掘中的一个重要的研究方向。聚类分析在生物学、统计学、机器学习、商业决策等领域都得到了成功应用。目前的聚类算法都比较有针对性,所以对于更高效、更准确、更全面的聚类算法的研究仍然是一大热点。层次聚类是聚类分析的一个重要分支,本文重点分析研究了层次聚类算法,并对一些代表算法的聚类性能进行了分析比较。CURE算法是一种典型的层次聚类算法,该算法对收缩因子这一参数很敏感,而且噪声和孤立点很难界定。针对CURE算法存在的不足,本文提出了一种改进的基于密度分层的层次聚类算法。改进算法将数据集中的点按照密度大小排序,将密度最小的约10%的点作为偏离点(包括噪声和孤立点)排除掉。将剩余的点按照密度大小分层,在密度最大和最小两层上分别进行凝聚层次聚类,然后在分层聚类的基础上对所有剩余点进行凝聚层次聚类。最后将偏离点划分到与之最近的已聚好的类中。改进算法对噪声和孤立点不敏感,不需要收缩因子这一参数,对多种非球形簇有很好的聚类效果。通过对比实验证明,改进算法的聚类效果明显优于CURE算法,算法效率也在一定程度上优于CURE算法。另外,本文还详细分析了2014年Alex Rodriguez在science上发表的文章Clustering by Fast Search and Find of Density Peaks中提出的一种新颖的基于密度的CBDP算法。针对CBDP算法只能处理类内数据分布不均匀、不同类的数据密度差距不大的数据集的缺点,提出了一种改进的层次聚类算法。改进算法通过计算数据的密度和距离,排除了密度很小而距离很大的噪声和孤立点,使改进算法对噪声和孤立点不敏感。通过绘制数据的密度和距离乘积分布图,即i—ρi*δi分布图来确定密度峰值点。然后以密度峰值点为中心,计算最小类间距离,不断进行类的合并,直至达到聚类数目。在二维和多维数据集上的实验证明了改进算法的聚类结果明显优于CBDP算法,而且聚类效果更稳定。