基于Hadoop的并行小波聚类算法

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:bruce_8_8_8
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的快速发展带来了大量数据,依靠单机技术已经很难处理如此海量的数据,并行技术是处理海量数据的重要方法。鉴于小波在时频域上的局部化分析能力,以及小波聚类算法在数据处理中的良好表现,本文主要研究多机并行环境下小波聚类算法的设计和实现,使小波聚类算法具备并行处理海量数据的能力。  本文内容主要分为四部分。第一部分介绍了并行处理海量数据的Hadoop平台和基于MapReduce算法实现分布式计算的Spark平台。详细叙述了Hadoop平台的分布式文件系统(HDFS)和并行运算框架MapReduce,以及Spark的弹性分布式数据集(RDD)和应用程序。第二部分详细说明了聚类算法和小波变换的理论,以及二者结合的产物小波聚类算法。第三部分是本文的主要工作,分别将小波聚类算法与并行运算框架MapReduce和Spark结合,实现基于MapReduce的并行小波聚类算法和基于Spark的并行小波聚类算法。  为了测试设计的并行小波聚类算法性能,使用Java语言编写了基于MapReduce的并行小波聚类算法和使用Scala语言编写了基于Spark的并行小波聚类算法,并且搭建了由5台计算机(1个主节点,4个从节点)组成的Hadoop集群和Spark集群。然后随机生成数据,分别做了加速比实验、扩展性实验和检验聚类效果的实验。实验结果表明,基于MapReduce的并行小波聚类算法和基于Spark的并行小波聚类算法除了都具有较好的加速比和良好的扩展性外,比MLLib中的并行K-means算法的聚类效果具有更好Silhouette有效性指标和Calinski-Harabasz有效性指标,验证了设计的并行小波聚类算法是有效的。第四部分给出了一个在线广告系统中的实际应用案例,对比分析了本文设计的并行小波聚类算法和并行K-means算法之间的性能。
其他文献
预测在许多领域如经济、生物、工业、农业、国防等方面都有广泛而重要的应用。预测离不开统计模型,在对某个变量进行预测之前,必须建立模型。线性回归模型是作预测的重要模型之
古典风险模型及许多推广的模型中,具有平稳独立增量是一个很重要的假设,然而这个假设对保险公司的实际经营有时不太符合.在破产理论中,对离散时间的风险模型研究较多的是复合
Zadeh LA在1965年提出了模糊集合的概念,标志了模糊数学的诞生.为了度量模糊事件,他又提出了可能性测度与必要性测度.但可能性测度没有自对偶性,并不与随机性中的概率测度平
二十世纪二十年代,芬兰数学家 R. Nevanlinna引进了亚纯函数的特征函数,并创立了Nevanlinna理论,此理论是二十世纪最伟大的数学成就之一。本文主要介绍作者以Nevanlinna理论为
最大独立集问题是图论中的经典组合优化问题。已被证明是NP完备的,具有较高的计算复杂性。本文从最大独立集问题的应用背景、界的估计、求解的难点以及现代优化算法的设计等方
学位
本论文研究把浸入界面方法运用到极坐标中。问题主要研究定义在极坐标下有限或是无限区域上的Poisson方程。因为问题在所定义的区域上存在着一个界面,所以穿越界面时奇异源项,
本文主要研究概率型算子关于不连续函数的点态逼近性质;内容包含两个方面,一是一元概率型算子关于具有一定增长条件的局部有界函数在第一类间断点处的点态逼近渐近估计,二是二元
自从20世纪五十年代Baer环概念的提出之后,其性质引起了代数学家们的广泛关注,并相应提出了多种推广形式.近年来对p.q.-Baer环的研究已成为重要的课题,本文是在此基础上对p.q.-Ba