论文部分内容阅读
聚类分析是多元统计分析的一个重要组成部分,广泛应用于社会生活的各个领域。近邻传播聚类算法是一种新型无监督聚类算法,由Frey和Dueck于2007年提出。该算法不需要给定初始聚类中心和簇的数量,只要构造相似度矩阵,建立偏向参数,即可通过消息传递机制,自动确定适合的类代表点。初步研究表明该算法具有许多优良的性质,如运算速度快、误差平方和小、聚类精度高等,但也有不足之处。首先,AP算法选择负的欧式距离作为其相似度度量,但欧式距离只适用于样本相互独立的情况,易受量纲的影响,且认为每个属性对距离的重要性相同。本文提出基于均方差的加权马氏距离,再将此加权马氏距离的负数作为AP算法的相似度度量,马氏距离能够自适应地调整数据的几何分布,消除属性之间相关性的干扰,基于均方差给属性加权,又综合考虑了属性相对重要程度对最终聚类的影响。采用此相似度度量,不仅扩大了算法的应用范围,也使聚类结果更精确。其次,AP算法中将每个点的偏向参数P设置为相同的值,即默认全部样本点成为类代表的可能性相等,忽略了数据分布特性对某点能否成为类代表的影响。针对此缺陷,本文提出基于其它所有点到某点的隶属度之和越大则该点成为类代表可能性越大的假设来设置P,实现了不同的点赋予不同的P值。基于数据特性设置P值,即事先给成为类代表可能性大的点赋予更高的P值,减少算法迭代次数及运行时间。同时,本文基于柯西收敛准则,实证分析了模型中归属度矩阵及吸引度矩阵的收敛性。最后,为获得从1到k的k个聚类,提出自适应步长,动态调整P值进行聚类的方法,并在此基础上研究了P值与聚类数目的关系,进一步对模型进行了优化。并利用Gap指标估计出最佳聚类数。通过对UCI数据库中的一些数据集进行仿真实验,证明了该模型具有可行性和优越性。