基于Hadoop平台的谱聚类算法研究

来源 :内蒙古科技大学 | 被引量 : 3次 | 上传用户:woshigezuiren
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类算法是数据挖掘领域中重要技术之一,数据挖掘研究的主要内容是从众多数据中挖掘出一些有用的和有价值的信息,其技术已经应用到工业、商业等众多领域。然而随着众多领域的飞速发展,其产生的数据量也在不断的扩大,传统的技术对数据的处理在时间上和硬件上已经不能满足日益增长的数据量,如何行之有效的处理海量数据已经成为迫在眉睫的首要任务,因此如何将并行计算方式应用到大数据集上,已成为热门的研究领域。传统的并行计算模式和计算方法主要是基于时间并行和空间并行,但是前者对于数据的处理要求较高,并行设计程序比较繁琐,一般主要用于科学计算领域,而后者对于并行所用的硬件要求很高,价格比较昂贵并且硬件的淘汰速度很快,造成极大的浪费,在数据量急剧增长的今天,迫切需要相应技术解决此问题。Google提出的MapReduce计算模式,因为其封装了底层复杂的编写过程,用户不在为编写复杂的数据分割程序、任务调度程序、并行处理程序而发愁,只需关心自己需要解决的问题,从而一经推出就受到了广泛的关注,美中不足的是其为“闭源”框架。Apache Hadoop在2008年实现了针对MapReduce编程模型的开放源代码,近些年随着数据量的不断增长,Hadoop平台得到了广泛应用,本文是在深入了解Hadoop平台之后,在Linux操作系统上部署Hadoop云计算试验平台,通过对聚类算法的深入了解,进行了基于Hadoop平台的谱聚类算法研究。谱聚类算法与以往的聚类算法相比,其更适合大数据的处理,在面对高维度并且不规则的数据时不会陷入最优解,本文从传统的谱聚类算法过程入手,分析出其可以并行的部分,主要工作是计算拉普拉斯矩阵的特征值和特征向量,从而结合云计算平台实现并行处理。在深入熟悉MapReduce编程框架之后,对谱聚类算法进行数据分割和任务并行。实验数据采用Wikipedia数据和人工合成数据进行实验测试,通过实验结果可以显示出并行之后的谱聚类算法在Hadoop平台上表现出了良好的效果,大大提高了在单机上处理数据的时间速度,并且在加速比、数据伸缩性等方面表现出良好的效果,在海量数据处理上有明显的优势。
其他文献
英国文化理论家斯图亚特·霍尔将其对遵循不同传统的符号学的理解应用于诸多人文社会科学领域。霍尔对结构主义符号学、后结构主义符号学及再现理论等符号学的阐释和应用,体
面对超强飓风,美国联邦政府和州政府积极应对,采取的防灾救灾措施比较得当,尽管如此,仍无法避免人员伤亡和大量财产损失。天灾面前,人类的力量显得极其脆弱,如何提高防灾减灾
随着现代企业管理理念的不断深入,越来越多的企业管理者意识到,员工是企业最重要的资产。在工作中,企业首先要让员工实现自己的价值,只有这样,才能激发员工的工作热情,员工才能做到
随着医学的发展,医院感染已成为当前医学界越来越受重视和关注的问题.住院的肝硬化患者由于长期肝功能障碍,免疫功能低下,极易发生机体微生态失衡,导致各种医院感染的发生.本
近年来,河北省牢固树立绿色发展理念,在全省大力弘扬"塞罕坝精神",坚持生态优先原则,将矿山环境整治由国土资源部门"一家管"上升为党政统筹"齐心抓",以露天矿山为重点,通过持续开展
我院自1993年3月至2003年12月共收治心脏刀刺伤18例,总结报道如下.
吐鲁番位于今新疆境内,是古代丝绸之路的重要枢纽。19世纪末、20世纪初,在此地发现了大量的纸质文书,书写文字有汉文、回鹘文和粟特文等,内容包括赋税、田制、户籍、兵役、宗