论文部分内容阅读
聚类分析,是一种在没有任何先验知识的情况下对待聚类数据根据数据间的相似性来进行分类的一种技术,在模式识别中被称为无监督分类,在统计学中被称为非参数估计。聚类分析被广泛地应用于众多学术领域,比如生物信息学、信息安全、文本聚类等。在过去发展的几十年,数以千计的聚类算法被不同学者提出,但是仍存在很大的研究空间,例如如何处理不同形状及密度的簇,对高维数据的合理计算,如何有效测定聚类结果当中簇的数量,噪声点的合理检测及如何定义及评判一个正确的簇等等。Alex Rodriguez与Alessandro Laio在2014年提出了一种新的启发式聚类算法 CFSFDP(Clustering by Fast Search and Find of Density Peaks)。该算法具有初始参数少、执行速度快、可有效探测目标簇数目及对噪声数据不敏感的特点,本文通过一系列实验证明了该算法的有效性,并且该算法提出者利用Olivetti人脸数据库中的图片聚类来证明该算法可以处理高维度数据。然而通过学习研究发现,该算法在遇到某些情况时表现不好。首先,该算法的初始簇中心的选取需要依靠人工选定且对处于密度稀疏区域的簇中心无法有效提取。其次,该算法认定数据集中的每个簇有且仅有一个局部密度值极点,这将导致拥有多密度极值点的簇及共享密度极值点的簇被错误划分。再者,该算法对噪声点的识别方法会致使较多的数据点被判定为噪声。基于这些发现,本文提出一种新的基于密度峰值的算法,改进算法通过改进的决策值计算方法来构建决策图,通过发现决策图拐点来自动识别簇中心。然后通过加入构建子簇的局部密度分布图的操作以及改进的层次聚类算法思想对错误划分的子簇进行分割和合并,最后通过新引入的数据点离群度计算公式来识别噪声。通过实验表明,该改进算法在多个数据集上的聚类效果优于原有的算法及其他基于密度的聚类算法。