并行聚类算法在MapReduce上的实现

被引量 : 0次 | 上传用户:dingdingdeaiqing86
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网上的数据以海量的规模存在并迅速增长,从海量的数据中挖掘出价值含量高的信息是技术上的迫切要求。聚类算法作为一种非监督学习的方法,是包括数据挖掘、机器学习、模式识别、图像分析等诸多领域数据统计分析的一种常用技术。传统的串行式的聚类算法存在着两个问题,已经难以满足实际应用的需求:一是聚类的速度不快,效率不是很高;二是在面对规模比较大的数据时,受制于内存容量的限制,往往不能有效地运行。Google提出的MapReduce概念是当前比较流行的分布式计算框架。本文研究两种在MapReduce上实现的聚类算法:并行化谱聚类和并行化AP聚类。分别实现这两种算法在10台机器组成的Hadoop集群上分布式计算。并行化谱聚类算法的策略是计算相似矩阵和稀疏化时按数据点标识切分;计算特征向量时把拉普拉斯矩阵存到分布式文件系统HDFS上,采用分布式Lanczos运算,并行计算得到特征向量;最后对特征向量的转置矩阵采用并行K-means聚类得到聚类结果。通过对算法的每一步采用不同的并行策略,使得整个算法在速度上获得线性增长。并行化AP聚类的策略是先把吸引度矩阵和归属度矩阵分布式存储在HBase上,每次迭代中的吸引度矩阵和归属度矩阵的计算按行分割,使其矩阵值的运算按行分布在多台机器上运算。随着机器的增加,以线性的增长速度加快算法的运算。通过在Corel图像集上做实验,分析比较两种并行聚类算法在MapReduce框架上的性能和聚类效果,从而为上面提到的两个聚类问题(“效率”和“有效”)的解决提供思路。
其他文献
我国西南世居少数民族众多,他们的民间文学遗产内容丰富,类别繁多,特征突出。除了包含一般民间文学的口头性、集体性、变异性、人民性、艺术性等特征外,更呈现出其他多方面的
《白衣女人》是19世纪英国神秘故事小说家柯林斯的第一部主要作品。作品首次以故事连载的形式出现在《一年到头》杂志上,在当时引起了很大的反响并深受读者喜爱,同时获得了狄
一、问题的提出《义务教育数学课程标准(2011年版)》(以下简称《标准》)在“课程性质”中指出:“数学课程能使学生掌握必备的基础知识和基本技能,培养学生的抽象思维和推理思
采用不同的解冻方法以及牛奶体细胞分离与SDS苯酚法相结合的手段,分离提取-80℃冻藏牛奶中牛基因组DNA,利用超微量核酸分析仪和琼脂糖凝胶电泳法分别对DNA浓度、纯度及分子量
在杜鹃与其宿主的协同进化中,宿主种群繁殖密度被认为是预测其是否被杜鹃寄生的重要指标.2011年4-8月,在贵州宽阔水国家级自然保护区对不同类型生境的红嘴相思鸟(Leiothrixlutea)
阅读是英语学习中的学生需要培养的能力之一。如何在英语教学中提高学生的阅读能力一直是英语教师不断努力的方向。但是目前国内的高职英语阅读教学仍然是以“语法-翻译”为
考虑到可控源音频大地电磁法(CSAMT)电偶极发射源与地下介质的三维结构特点,本文采用非结构化网格剖分技术,开展了三维CSAMT方法有限元数值模拟研究,将三维电磁场的背景场和异常场
目的:观察参芪扶正注射液治疗慢性呼吸衰竭急性加重(气虚痰热证)的临床疗效并探讨其作用机制。方法:将符合本研究标准的60例患者按照随机、对照的原则分为试验组30例,对照组30
无公害蔬菜是指产地环境、生产过程和蔬菜产品质量符合国家有关标准要求,经认证合格获得认证证书,并允许使用无公害农产品标志的商品蔬菜,近年来,由于蔬菜生产过程中病虫害种类多
教师是项目课程开发的中坚力量和主力军。教师项目课程开发及实施能力,决定着项目课程开发与实施效果。项目课程开发及实施工作对教师提出了哪些能力要求,教师现有能力状况如