基于MapReduce的海量数据K-means聚类算法研究

被引量 : 0次 | 上传用户:ehvv5022
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类是数据挖掘中非常热门的研究方向。聚类是将数据对象划分为不同的簇的过程,其目的是使同簇中对象具有较高相似度,不同簇间对象相似度较低。随着信息技术的快速发展与数据量的不断扩张,人们对聚类算法的效率、可靠性以及可扩展性的要求逐渐提高,海量数据聚类变得尤为重要。在众多聚类算法中,基于划分的K-means聚类算法因其简单性,一直深受欢迎。本文主要研究在海量数据环境下K-means聚类的性能优化问题。为满足海量数据的处理需求,在单机处理能力有限的情况下,分布式计算模型的应用成为大势所趋。很多学者借助MapReduce并行编程框架来进行K-means聚类计算,在计算性能方面有了一定的提高。但是,在利用MapReduce进行K-means计算时会有多次任务迭代,每次迭代时Mapper均需从HDFS文件系统上读取原始数据,同时所有数据在整个集群网络中洗牌,传送给对应的Reducer,这导致了高昂的I/O和网络开销,在目前并没有被很好地解决。针对MapReduce处理K-means聚类时的瓶颈,本文提出了一种基于MapReduce的海量数据快速K-means计算模型,通过随机均匀概率抽样和迭代抽样方法减少数据量,在MapReduce单个任务内部进行迭代计算,避免了MapReduce在处理时任务重复启动、海量数据重复读取和多次网络洗牌的弊端,从而降低I/O和网络开销,实现快速聚类,降低数据集中孤立点对于聚类结果的影响。同时,本文针对计算模型提出了两种不同的中间数据合并策略WMC和DMC,分别从不同方面提高了聚类结果的准确度。在集群上的大量实验表明本文提出的方法能够有效提高海量数据K-means聚类的效率,优化算法的健壮性和可扩展性强,同时能够降低数据集中异常点对于聚类结果的影响。
其他文献
随着我国城镇化的快速发展和推进,大城市边缘区的小城镇的规划建设和发展已经成为不仅仅影响小城镇自身发展,也影响到中心城市的重要因素。本文首先通过分析大城市边缘区小城镇
翻译为国家之间的交流沟通架起了一座桥梁。目前,世界范围内对于学术论文以及学术著作的需要日益增长,学术研究的繁荣发展对学术类文本的翻译提出了更高的要求。然而目前学术类
目的探讨三伏天灸配合中药治疗慢性盆腔炎的临床疗效。方法选取汕头市金平区中医医院妇科门诊收治的慢性盆腔炎患者160例,随机分为两组,各80例。对照组采用中药口服配合中药灌
近年来,图像显著度检测技术发展迅速,吸引了大量的研究者。而视频显著度检测技术,在计算机视觉领域当中往往被看作是图像显著度检测的延伸,在近几年刚刚兴起,还处于研究的初
本文是对葡萄酒酒庄建筑发展趋势和设计的研究,属于建筑类型研究的层面。经济的快速增长使人们生活水平不断提高,随之而来的是家庭消费观念的改变。越来越多的家庭以享受美食
随着高性能建筑材料的发展和先进建造技术的广泛应用,大跨度、轻型结构已成为桥梁发展的趋势,随之而来的桥梁振动问题也日趋突出。对于轨道桥梁,列车轴重的加大和速度的提高
《混凝土结构施工规范》是混凝土结构工程施工的通用标准,重点对《混凝土结构施工规范》中有关模板工程的变化情况分十部分进行了阐述,以便制定科学、合理、安全的模板施工方
“民以食为天”,农业作为我国十分典型的传统行业,具有季节性和地域性较强、产品标准化程度低、生产者居住分散而且素质较低等特点。电子商务是基于互联网进行的电子数据传输
商标诞生之初,并无注册商标与未注册商标之分。随着社会的发展,越来越多的国家实行注册原则来对商标进行管理,至此才相继出现了注册商标和未注册商标。未注册商标作为一种商
随着互联网技术的飞速发展,网络中的流量越来越丰富,并且对网络传输的可靠性、实时性和安全性的要求也越来越高。随之而来的网络异常流量攻击,给人们的生活带来了严重的潜在