集群环境下聚类算法的并行化研究与实现

被引量 : 0次 | 上传用户:yao2042547
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析是一种常见的数据挖掘技术,它是基于数据对象的特点对数据集进行分类,将相似的数据对象聚在一起。聚类分析已广泛地应用于诸多领域,如市场研究、图像处理、互联网数据分析等。这些领域中的“数据爆炸”使得聚类分析计算极为耗时,不能有效地满足数据挖掘的时效性需求。因此,需要考虑使用并行计算技术解决这个问题。K-Means聚类算法是一种广泛应用的聚类分析方法,在多个应用场合中聚类效果良好。但随着聚类数据规模的增长,K-Means聚类的迭代次数增加,整个计算的耗时会加长。为了使得K-Means算法能够有效的应用于海量的数据集的聚类分析,本文研究K-Means算法的并行化方法,使得数据聚类可以在多台计算机上并行执行。MPI作为标准的消息传递库,提供了应用底层的消息通信接口,支持应用程序间的通信。它给并行应用的开发带来了更多的灵活性和可控性。Hadoop是一种开源的分布式计算框架,它采用了Google的并行编程思想MapReduce,将并行处理、任务调度、动态容错等模块封装成底层库,提供了一种高层次的编程接口,这使得开发人员只需关注并行应用逻辑;Spark是一种集群式的数据分析平台,它提供一种分布式数据集(RDD)及高层次的编程接口用于构建并行的数据分析应用。在本文中,我们分析了上述三种计算平台的特点,利用它们的技术实现了并行的K-Means聚类算法,并分析单机与并行算法的性能以及三种计算平台下并行算法执行的性能差异。实验结果表明三个计算平台下并行K-Means算法的性能在大数据集上都具有良好的加速比和扩展比;而在三种计算平台之间,基于MPI的并行算法计算效率最高,但计算过程不具有容错性;Hadoop平台下的并行聚类算法执行效率较低,计算过程支持任务的容错;Spark平台下的聚类算法执行性能接近于MPI,且聚类过程支持容错,适合用于海量数据的聚类分析应用。
其他文献
针对施工企业工程分包管理活动,从分包形式、分包管理制度、分包项目实施过程的控制等方面入手进行了探讨,以期指导实践,进一步提高施工企业工程分包管理水平,达到合作双方的
清末革命风潮,以1903年为一高峰,这一高峰的形成,又与"《苏报》案"的推动密不可分。作为《苏报》的主笔,章士钊与这次事件的关系究竟如何,以往学术界虽有论述,但并不详尽。本
目的调查消化道肿瘤化疗患者的营养状况,并探讨营养状况对患者生活质量的影响。方法使用人体测量法、实验室检查法和主观全面评价法(SGA)调查77例消化道肿瘤患者的营养状况,
面对文化差异对贸易的影响,为进一步推进世界贸易的自由发展,必须采取有效措施促使贸易环境法制化、规范化,建立国际性文化交流组织与文化交流中心,进行多层次、多形式的文化
针对胜利油田大多数稠油区块及其他难动用区块开发方式单一,开采难度越来越大的情况,进行了火烧油层配套技术的研究。火烧油层的相关配套技术得到进一步完善,在高渗透稠油油
随着改革开放的不断深入,我国医疗系统改革已经逐渐开始。医疗结构的市场化改革给医院的财务管理带来了较大的挑战。西方医疗结构在市场化的洗礼下已经总结出了一套较为完善
<正>在全面推进依法治国,建设社会主义法治国家的伟大征程中,随着民事执行实践的不断发展和民事执行理论研究的逐步深入,我国民事执行改革经历了从审执分立到管理体制变革、
本文通过对南京业余排球俱乐部成员结构、训练和比赛、发展和成员参与的影响因素、参与动机和经费等问题调查研究,提出个人对策,以期推动业余排球俱乐部的不断发展,推动全民
随着人口老龄化趋势日益严重,建立了符合我国特殊国情的新型农村社会养老保险制度,从根本上解决农村养老问题。本文通过对养老保险制度的发展现状以及新型养老保险的实施情况
[目的]了解上海市餐饮服务单位食用油采购、使用和废弃油脂回收处理情况,结合现场快速检测结果综合评价食用油安全状况,为监管部门规范企业食用油使用和废弃油脂处理提供参考