论文部分内容阅读
随着社会的不断发展,互联网技术的大范围普及,各行各业对于相关数据的需求呈现稳步上升的趋势。而大数据时代的出现,实际上是在互联网技术飞速发展的背景下,不断增长的社会需求同相匹配的数据挖掘技术完美结合的产物。聚类分析是数据挖掘领域中的一个重要的方法,近邻传播聚类算法(Affinity Propagation,AP)作为数据挖掘领域中一种可以高效快速完成数据聚类分析的方法,受到了国内外专家学者的广泛研究与推广。但是,传统的近邻传播聚类算法仍存在多种弊端,导致算法产生聚类性能低,聚类效果不佳等结果。基于此,本文以相似度为出发点,在原始近邻传播聚类算法中引入多种不同的理论,致力于得到较优的聚类结果,提高算法的聚类性能。本文主要研究内容如下:(1)以相似度的计算方式作为出发点,针对传统AP算法存在对数据类型敏感的弊端,提出一种新的基于加权相似度的自适应近邻传播聚类算法(A Novel Self-Adaptive Affinity Propagation Clustering Algorithm based on Density Peak Theory and Weighted Similarity,DPWS-SAAP)。该算法在传统AP算法中引入密度峰值聚类算法的局部密度理论,在原始算法中构建密度属性,利用加权相似度的思想,重现进行相似度的计算,最终更新相似度矩阵。(2)进一步优化算法的相似度度量方式,针对传统AP算法以欧氏距离作为算法中相似度计算的唯一计算标准,无法更好的体现数据样本空间特征的弊端,同时无法得出准确聚类结果,提出一种基于万有引力理论的近邻传播聚类算法(Gravity Theory-based Affinity Propagation Clustering Algorithm,G-AP)。该算法引入万有引力的思想,进一步优化算法的相似度计算方式以得到更优的聚类效果。(3)萤火虫算法作为一种新的、高效的群体智能算法,被广泛的应用于多个领域中。本文提出一种基于萤火虫优化的近邻传播聚类算法(Affinity Propagation Clustering Algorithm Based on Firefly Optimization,FO-AP)该算法通过萤火虫优化自适应扫描偏向参数空间,并更新相似度矩阵,以得出最优聚类。(4)鉴于传统AP算法在处理高维数据时,难以得出有效聚类结果的弊端,提出基于改进距离函数的近邻传播聚类算法(Affinity Propagation Clustering Algorithm based on Improvement Distance Function,IDF-AP),用以提高聚类性能,得到精准聚类。