论文部分内容阅读
随着互联网技术迅速增长,人们所能接触到的信息量与日俱增,因此人们对于处理这些海量数据的工具的需求也就越来越高。图像作为一种表现直观、内容丰富的基本的多媒体信息,不管是在科学技术还是在日常生活中得到越来越广泛的应用。对于海量的图像数据,如何能够快速有效地进行管理与检索,继而从中获取潜在的有价值的信息成为人们关注的问题。当前正被人们广为使用的Hadoop平台由于在处理速度上达到其瓶颈,也逐渐满足不了人们的需求。此时,Spark的出现为人们带来了希望。其在处理速度上可高过Hadoop百倍之多,这为人们节省了大量的时间,也使得其在迭代和交互式计算方面远超过Hadoop[1]。大数据的核心处理之一就是数据挖掘,聚类分析作为数据挖掘的一个重要研究内容近年来也受到了不少关注,传统的聚类算法已无法满足海量信息的处理需求,因此高效的聚类技术应运而生。鉴于目前国内外对Spark平台上的聚类算法实现研究甚少,因此本文对Spark平台的岩石图像进行聚类算法的处理。本文的主要工作如下:1.Spark平台研究。Spark平台作为当下新兴的大数据平台相比于已经被广泛使用的Hadoop平台存在很多优点,出于多方面的考虑本文选取Spark平台。2.K-means算法及其改进。由于传统的K-means算法在聚类时特别依赖初始聚类中心的选择,一旦选择的初始聚类中心不合适,算法就很容易陷入单个聚类的最优值,并且分割效果与聚类数目K也有很大的关系,因此本文提出了一种基于概率选择的改进的K-means算法,通过此算法得到的数据集远远小于初始数据集,因此会大大提高K-means聚类的速度。3.将改进的K-means算法应用于处理岩石图像中,使用K-means算法对岩石图像进行特征提取,使得岩石图像易于区分。4.将改进的K-means算法应用于Spark平台实现其高效性。