论文部分内容阅读
密度峰值聚类算法是一种通过寻找密度峰值实现快速聚类的新颖算法,具有实现简单、所需参数少、能处理非凸数据、聚类效果良好等优点。凭借以上优点,密度峰值聚类算法为很多现实问题提供了新的解决思路,并且被应用到众多领域,已成为聚类领域的一个研究热点。然而,由于其还存在无法自动识别聚类中心、对类簇间密度相差较大的数据集还不能有效处理等问题,本文设计了相应的改进算法,提高了密度峰值算法的性能。具体研究内容如下:(1)针对密度峰值算法关于聚类中心的人工识别问题,提出了一种聚类中心自动识别的密度峰值聚类算法。首先,设计了一种适用于不同规模数据集的基于贡献度的密度度量方法,以便能精密地度量数据点的密度并优化决策图的分布。然后,根据决策图上密度与距离的分布特性,设计了新的聚类中心选取方法,能够自动地将那些密度与距离均较大的数据点选取为局部聚类中心,进而形成局部的聚类结果。最后,根据局部类簇之间的共享边界密度信息,将局部聚类自动地合并为全局聚类。实验结果表明,新提出的算法不但能自动地识别出局部聚类中心,并且能够准确地将局部聚类合并为全局聚类,实现了对数据集的自动聚类,解决了密度峰值算法在聚类过程中需要人工选取聚类中心的问题,特对是对某类中存在多密度峰值的数据集,其效果更为明显。(2)针对密度峰值算法对类簇间密度相差较大的数据集聚类效果较差以及其分配策略存在连锁式错分问题,本文提出了一种基于K近邻的密度峰值聚类算法。它将K近邻的思想融入到局部密度的定义和分配策略中,以降低密度信息对聚类中心选取和数据点分配的影响,解决稀疏区域聚类中心易被遗漏和非中心数据点的错分问题。首先,设计了一种考虑数据点空间分布的密度度量方法,它根据数据点周围邻居的分布环绕信息及数据点到邻居的平均距离计算数据点的密度,在保证原稠密类簇的密度值仍较高的同时提高稀疏类簇的密度值,有效降低类簇间数据的不同密集程度对准确识别聚类中心的影响。此外,新的分配策略采用区分边界点方法,分两个步骤对数据点进行分配。首先利用广度优先策略完成非边界数据点的分配,同时自动删减同类中出现的多个聚类中心。然后,依据邻居点的分类情况,逐步完成对剩余数据点的分配。采用这种分配方法无需后续合并操作就可以解决某类中存在的多密度峰值问题,并且有效避免了原算法所产生的连锁式错分问题。在多个人造数据集与UCI真实数据集上的实验结果验证了改进算法的有效性与可行性。