k-means聚类算法的改进研究及其应用

被引量 : 0次 | 上传用户:eaglecmk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是为使人们能够充分理解和应用隐藏在数据中的有效信息和知识而发展起来的一门新兴技术。聚类分析作为数据挖掘中的一种重要无监督模式,大致可分为以下几类方法:基于划分的聚类方法、基于层次的聚类方法、基于网格的聚类方法、基于密度的聚类方法等。k--means算法是一种基于划分的聚类算法,由于易行、高效等优点,在遥感领域得到广泛应用,但是随着遥感技术的发展,遥感图像中包含的数据量越来越大,并且k-means聚类算法易受初始中心点的制约,因此,本文在对k-means聚类算法分析的基础上,针对k-means聚类算法所存在的问题,对其进行了相应的改进,主要集中在以下两个方面:(1)针对k-means聚类算法在处理大规模数据时,会消耗较大的内存资源和计算成本,以至无法进行有效聚类的问题,提出一种采用MapReduce编程模型实现并行k-means聚类的方法。该方法首先将大规模数据分割成块,然后分配到集群中的各个子节点上,对样本数据进行聚类后,同步更新聚类中心再进行下一次聚类,直到聚类中心不再变化。通过UCI数据集中的4组数据仿真实验,验证并行k-means算法的有效性,并采用数据规模较大的遥感数据验证该方法对于遥感图像处理的有效性,同时测试并行集群的加速比和可扩展性。(2)针对k-means算法受初始聚类中心和异常数据的制约,易出现不稳定聚类结果的问题,提出一种基于差分进化的加权k-means算法。该算法首先基于差分进化算法,提出一种新的获得更好初始聚类中心的方法;然后根据样本对聚类分析影响的不同程度而引入权值,设计一种加权的欧氏距离,加大数据之间的区分程度,以减少异常数据等不确定因素带来的不良影响,并得到稳定的聚类结果,提高聚类精度。通过UCI数据集中的4组数据验证所提算法具有较稳定的聚类结果,同时将该方法应用到实际遥感图像上进行仿真实验,验证所提算法可较好地处理遥感图像数据,可将地物种类进行合理划分。
其他文献
十二烷基苯磺酸盐因其两亲性结构而作为表面活性剂得以广泛应用,其在负离子聚合体系中作为一种μ-型配体对聚合反应速率及聚合产物结构产生影响。本文采用不同方式制备了多种
在当今科技和知识快速发展的时代,从宏观层面上讲,国家的技术创新水平能够决定它的产业结构转型道路,提高国家在国际领域的地位和竞争力,而从微观层面上说,一个企业的技术创
随着移动智能终端设备的飞速发展,人们的生活与工作离不开平板电脑与智能电话等移动设备的应用,信息安全问题已经不仅仅局限于PC机。因此,智能终端的操作系统安全成为了一个
近些年来,由于网络经济的蓬勃发展,电子商务成为了人们生活中的一部分,作为电子商务最末端的环节,快递成为了从虚拟到现实的桥梁。电子商务的发展给快递行业带来了巨大的市场空间
近年来,产业集群在国内外地区经济发展中发挥的作用越来越大。这些集群,很多都是我们耳熟能详的。国外成熟的产业集群中,美国有好莱坞影视娱乐产业和硅谷高新电子产业,意大利
自改革开放以来,我国与世界其他各国的联系愈加紧密,并以更加开放、包容的姿态积极活动于世界舞台中心。要展现国家形象、传播国家立场和中华文化,对外宣传是必不可少的手段,
本论文来自于作者所在实验室与北京市某公司的联合研发项目,设计并实现一款基于TI (Texas Instruments)最新KeyStone II架构高性能DSP的可支持LTE-A的基带处理板卡。该板卡属
当今中医学在以《黄帝内经》和《伤寒杂病论》为核心经典的主流医学之外,仍然存在着道医、铃医、巫医等其他医学门类,其学术与主流医学存在明显差异。同为华夏医学之脉,各自
近年来,随着国外物流企业的纷纷入驻以及本土物流企业的快速发展,我国第三方物流企业间的竞争是日趋激烈。第三方物流企业要想在激烈的竞争中站稳脚步,源远流长,就需要先进的业绩
无论是针对小型机械零件的故障检测,还是大型机械设备的振动监测,其振动噪声信号为分析故障、监测状态提供了重要的数据参考。而振动噪声信号的采集和存储需要可靠高效的采集