论文部分内容阅读
随着当下社会信息化的发展、数据的快速积累,无监督学习算法日益受到人们的关注。而聚类算法不仅是机器学习算法的一个重要分支,更是无监督学习的重要代表,广泛应用于图像模式识别、社交网络分析、网络安全等领域。传统的聚类算法与工程实践主要是以单机形式进行,但是这种方式随着数据规模的不断增长,在数据分布、计算资源、存储空间等多方面都将受到制约。分布式聚类解决了传统聚类算法无法在分布式环境下应用的难题,同时保证了计算资源与存储空间的扩展性,使得聚类算法不再受制于数据规模、计算资源等约束。本文提出了一种基于分布式的密度聚类算法,根据原始的密度聚类算法Density Peaks设计了分布式的密度聚类算法——REMOLD,REMOLD算法以Density Peaks算法作为局部基础聚类算法,再以模型的形式将原子簇内的密度分布进行估计表示汇合至主机,在主机通过密度分布模型模拟全局密度,进行再次聚类。REMOLD继承了密度聚类的优点同时,极大的减少了中心节点的网络负载。实验结果表明,REMOLD算法在计算时间、网络传输、聚类指标等方面均可以达到较好的效果。对比三种经典的分布式密度聚类算法DBDC、Basic-DDP,LSH-DDP,REMOLD算法具有令人满意的表现,并且通过实验证实了算法的可扩展性。对高光谱图像的聚类一直是分析高光谱图像的重要方法之一。高光谱图像由于包含了大量的地物信息,对资源勘探、军事侦察、土地调查等领域具有巨大的潜在价值,引起了越来越多的关注。传统的高光谱图像聚类方法受到高光谱图像空间分辨率大小与波段维度的限制,并且不具有扩展性。本文采用分布式密度聚类的方法对高光谱图像进行密度聚类,输入原始高光谱图像,输出可视化后的聚类结果图像。实验结果表明,该方法的聚类结果具有较好的计算效率、较高的性能,能够适用于大数据场景下的高光谱图像聚类。