论文部分内容阅读
数据挖掘是为使人们能够充分理解和应用隐藏在数据中的有效信息和知识而发展起来的一门新兴技术。聚类分析作为数据挖掘中的一种重要无监督模式,大致可分为以下几类方法:基于划分的聚类方法、基于层次的聚类方法、基于网格的聚类方法、基于密度的聚类方法等。k--means算法是一种基于划分的聚类算法,由于易行、高效等优点,在遥感领域得到广泛应用,但是随着遥感技术的发展,遥感图像中包含的数据量越来越大,并且k-means聚类算法易受初始中心点的制约,因此,本文在对k-means聚类算法分析的基础上,针对k-means聚类算法所存在的问题,对其进行了相应的改进,主要集中在以下两个方面:(1)针对k-means聚类算法在处理大规模数据时,会消耗较大的内存资源和计算成本,以至无法进行有效聚类的问题,提出一种采用MapReduce编程模型实现并行k-means聚类的方法。该方法首先将大规模数据分割成块,然后分配到集群中的各个子节点上,对样本数据进行聚类后,同步更新聚类中心再进行下一次聚类,直到聚类中心不再变化。通过UCI数据集中的4组数据仿真实验,验证并行k-means算法的有效性,并采用数据规模较大的遥感数据验证该方法对于遥感图像处理的有效性,同时测试并行集群的加速比和可扩展性。(2)针对k-means算法受初始聚类中心和异常数据的制约,易出现不稳定聚类结果的问题,提出一种基于差分进化的加权k-means算法。该算法首先基于差分进化算法,提出一种新的获得更好初始聚类中心的方法;然后根据样本对聚类分析影响的不同程度而引入权值,设计一种加权的欧氏距离,加大数据之间的区分程度,以减少异常数据等不确定因素带来的不良影响,并得到稳定的聚类结果,提高聚类精度。通过UCI数据集中的4组数据验证所提算法具有较稳定的聚类结果,同时将该方法应用到实际遥感图像上进行仿真实验,验证所提算法可较好地处理遥感图像数据,可将地物种类进行合理划分。