MapReduce框架下的聚类和凸包算法研究与实现

被引量 : 2次 | 上传用户:suishi2001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着时间的推移和科技的发展以及移动互联网,物联网等新技术的兴起,每年产生的数据都以几何级数增长。并且与传统数据相比,大数据明显朝着数据体量巨大、数据种类繁多、增长速度过快和价值密度较低这四个特性发展。传统的数据处理技术已经不能满足现在大数据背景下的存储、管理和处理任务。所以如何能够以更加快速、高效、低成本的方式从海量数据中挖取有价值的信息从而帮助企业制定决策已经成为数据挖掘技术研究的新方向。而云计算的出现为数据挖掘技术的发展带来了新的机遇。Hadoop正是众多云计算平台之一,如今是Apache开源项目。Hadoop是由分布式文件系统和MapReduce编程框架组成,它的设计理念来自于Google公司发表的关于Google分布式文件系统和MapReduce编程模型的两篇论文。这两项技术充分利用了计算机计算能力和磁盘存储能力,Hadoop可以使用大量的廉价计算机通过集群来处理大规模数据。所以将Hadoop云计算平台和数据挖据算法相结合可以有效的解决分析与处理海量数据时所面临的难题,在降低硬件设备要求的同时提高数据处理能力。本文主要研究的是如何利用Hadoop集群的并行计算能力来实现聚类算法和凸包算法的问题。首先本文对大数据的产生和价值增长做了研究,说明提高数据挖据算法的执行效率的必要性,同时对如今支持大数据处理的科技和工具做了大致的介绍。之后研究Hadoop文件系统的运行机理,存储过程以及MapReduce框架的编程模型,运行原理等。其次,在一定规模的Hadoop集群上对数据进行分布式处理,从而评估整个集群的性能,看是否适用于标准的数据挖掘任务。在MapReduce框架下运行基准性能的搜索和排序任务,对不同系统配置下的效果进行分析。同时提供K-means聚类算法在MapReduce框架下迭代实现。最后,将传统的计算机图形学凸包算法用MapReduce框架并行实现,并结合K-means算法对实验数据进行仿真,表明凸包算法可以应用于MapReduce框架下的数据挖掘算法研究,并且对数据挖掘算法的结果在数据压缩方面做了大致介绍。
其他文献
目的:肺癌是我国大中城市发病率及死亡率最高的恶性肿瘤之一。中晚期肺癌患者往往失去手术治疗的机会,放化疗等治疗方法带来许多副作用,极大影响了患者的生活质量,甚至出现心理疾
<正> 预算管理和政府会计改革是当前世界范围内公共管理领域最热门的话题。自20世纪80年代以来在“新公共管理”(NPM)逐渐兴起的大背景下,以新西兰、英国、澳大利亚、加拿大
对比研究包虫病快速诊断试验试剂盒的诊断价值。将经手术和病理检查确诊病例中随机抽样60例包虫病行快速诊断试剂盒诊断的包虫病患者作为实验组;同样抽样60例包虫囊液皮内过
目的探讨不同程度动脉粥样硬化 (AS)症患者血浆内皮素 (ET)、一氧化氮 (NO)的水平 ,区分出轻、中、重AS症内皮素、一氧化氮范围 ,为了解AS的程度并进一步佐证内皮素、一氧化
麦冬为百合科植物麦冬Ophiopogon japonicas(L.f)Ker-Gawl的干燥块根。目前市场上依据产地不同分为浙麦冬及川麦冬,浙麦冬与川麦冬在生长年限与性状各不相同。浙麦冬为生长三
牡丹纹饰历史悠久,作为一种古老的中国传统花卉纹样,历经多个朝代的发展,最终于明清时期发展至巅峰状态,且无论是“形”还是“意”都具有鲜明的时代特色,被广泛地运用于明清服饰。
<正>发动群众抓贪官结合学习《大诰》,朱元璋发动了一场轰轰烈烈的群众运动。于是,洪武十九年,大明帝国发生了一件中国历史上前所未有的事情:皇帝号召底层民众起来,造官僚阶
随着全球经济的高速发展,世界各地涌现出了一大批大城市,由此也带来了一系列问题。如何改善城市生态环境,实现经济与环境协调发展,已经成为当今城市发展所要面对的重大问题,
互联网的应用与发展不仅促进了各个新兴产业的产生与发展,影响了每个人的生活,同时也为传统制造业提供了机遇与挑战。对于制造业企业来说,常规的营销方式,如投放广告、搞促销活动
目的探讨解剖喉返神经在甲状腺手术中的应用。方法回顾分析因甲状腺疾病行手术治疗的236例患者的临床资料,共施行甲状腺手术335侧次;甲组101例行甲状腺手术158侧次,术中均未