论文部分内容阅读
随着时间的推移和科技的发展以及移动互联网,物联网等新技术的兴起,每年产生的数据都以几何级数增长。并且与传统数据相比,大数据明显朝着数据体量巨大、数据种类繁多、增长速度过快和价值密度较低这四个特性发展。传统的数据处理技术已经不能满足现在大数据背景下的存储、管理和处理任务。所以如何能够以更加快速、高效、低成本的方式从海量数据中挖取有价值的信息从而帮助企业制定决策已经成为数据挖掘技术研究的新方向。而云计算的出现为数据挖掘技术的发展带来了新的机遇。Hadoop正是众多云计算平台之一,如今是Apache开源项目。Hadoop是由分布式文件系统和MapReduce编程框架组成,它的设计理念来自于Google公司发表的关于Google分布式文件系统和MapReduce编程模型的两篇论文。这两项技术充分利用了计算机计算能力和磁盘存储能力,Hadoop可以使用大量的廉价计算机通过集群来处理大规模数据。所以将Hadoop云计算平台和数据挖据算法相结合可以有效的解决分析与处理海量数据时所面临的难题,在降低硬件设备要求的同时提高数据处理能力。本文主要研究的是如何利用Hadoop集群的并行计算能力来实现聚类算法和凸包算法的问题。首先本文对大数据的产生和价值增长做了研究,说明提高数据挖据算法的执行效率的必要性,同时对如今支持大数据处理的科技和工具做了大致的介绍。之后研究Hadoop文件系统的运行机理,存储过程以及MapReduce框架的编程模型,运行原理等。其次,在一定规模的Hadoop集群上对数据进行分布式处理,从而评估整个集群的性能,看是否适用于标准的数据挖掘任务。在MapReduce框架下运行基准性能的搜索和排序任务,对不同系统配置下的效果进行分析。同时提供K-means聚类算法在MapReduce框架下迭代实现。最后,将传统的计算机图形学凸包算法用MapReduce框架并行实现,并结合K-means算法对实验数据进行仿真,表明凸包算法可以应用于MapReduce框架下的数据挖掘算法研究,并且对数据挖掘算法的结果在数据压缩方面做了大致介绍。