大数据为何离不开Hadoop

来源 :大众科学 | 被引量 : 0次 | 上传用户:liond1803
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  Hadoop是如今大数据革命的代表性技术,做Hadoop相关产品有很多,其中有很多不一样的选择和变种,比较知名的有Cloudera、Hortonwork、亚马逊EMR、Storm和Spark。这些都是Hadoop的忠实“粉丝”。
  想要搞清楚大数据和Hadoop的关系,我们还得先认识一下Hadoop。
  一种数据存储和分析的方法
  如何理解Hadoop呢?官方给的定义是这样的:作为一种软件库,Hadoop允许在集群服务器上使用简单的编程模型对大数据集进行分布式处理。它被设计成能够从单台服务器扩展到数以千计的服务器,每台服务器都有本地的计算和存储资源。Hadoop的高可用性并不依赖硬件,其代码库自身就能在应用层侦测并处理硬件故障,因此能基于服务器集群提供高可用性的服务。
  对于非专业人员,这个解释显得比较晦涩,我们从“系统”这个角度来理解。Hadoop是一个分布式系统,这种系统的结构特点是表面上看起来是一个整体,实际上它的各个模块和数据都具有高度的自治独立性,系统中的若干台计算机可以互相协作来完成一个共同的任务,或者说一个程序可以分布在几台计算机上并行地运行。比如说我们平时使用的万维网就是一个很好的分布式系统的例子,表面看起来它是一个整体,实际上网页中很多不同的部分都是独立工作的。
  具体到Hadoop中,我们会发现它的“独立性”做得更彻底, Hadoop中几乎所有的功能都是独立模块化的,也就是说具体在应用中使用者可以用其他软件抽掉或替代那些不需要的模块,这使得Hadoop的“兼容性”变得很高。
  如果Hadoop还是没给你留下深刻的印象的话,那么你只要记住,这个系统是由两个部分构成的,一个是数据处理框架,另一个是分布式数据存储文件系统(HDFS)。大数据存在HDFS中,需要用的时候就从这里拿到数据处理框架里面处理。
  大数据为何离不开它
  我们这里说的“大数据离不开Hadoop”其实是相对而言的,从技术上来说,大数据的处理非得Hadoop吗?那倒不是,在Hadoop出现之前很多企业已经开始处理大数據啦。不过,这些企业仅限于大企业,因为只有他们有能力购买处理大数据的大型机器。
  但是,大数据要想做出更多贡献,必须让更多的组织机构参与进来,在时代的呼唤下,一种成本相对较低的能够处理大数据的系统就呼之欲出。这时候Google站了出来,他们的工程师经过多番探讨实践,最后做出了Hadoop!
  Hadoop的出现在大数据发展史上是有里程碑意义的,因为它的出现把大数据的应用从小众变成了大众。最直接的体现就是它降低了大数据处理成本!
  首先,企业不用花太多钱在服务器硬件成本上,一般廉价的服务器也足以支撑起Hadoop。

  其次,在软件使用上Hadoop不像是昂贵的“大型机”——昂贵且很多东西不开放。Hadoop不仅对用户开放源代码和协议,可供自由修改,最主要的是,这些东西的使用时成本相对低廉的。
  再次,Hadoop出自Google工程师之手,工程师们使用的时候都是二次开发,其本身的结构合理性、安全性都有保障,在日常维护上的成本低了很多。当然,这里还有一个“后天”累计而成的优势不得不提,Hadoop自从出现之后就受到了热捧,目前工程师们已经自发的形成了非常热闹的讨论社区,新手在入门的时候可以享受到友好的学习环境和进阶环境。
  缺陷:不适合处理实时数据
  Twitter在使用了Hadoop处理大数据后,他们又推出了自己的自己的另外一个系统——Storm,因为Hadoop并不适合处理实时大数据,但在Twitter上用户每天就要生成1.4亿条新的推文。
  相比较起来,虽然Hadoop吞吐数据的量比Storm大,但Storm在时延上比要比Hadoop优得多,在实时数据较多的业务场景下,当然是Storm比较合适。这还得从它们的工作本质说起。
  Storm 与Hadoop之间不同之处在于它们的工作处理方式。Hadoop在本质上是一个批处理系统,数据被引入 Hadoop 文件系统 (HDFS) 并分发到各个节点进行处理。当处理完成时,结果数据返回到 HDFS 供始发者使用。Storm 支持创建拓扑结构来转换没有终点的数据流,这些转换从不停止,它们会持续处理到达的数据。
  当然,我们在说Hadoop不适合处理实时数据的时候也得加上一个前提,那就是这个需要被处理的实时数据得足够大,如果只是一般量的话,Hadoop还是应付得了的。(编辑/有庆)
其他文献
数据显示,结石病为我国的高发病,南方部分地区发病率甚至超过10%。研究发现,人体形成结石的原因很多,除了生活在炎热地区、运动过少、患某些疾病等因素外,不良饮食习惯也是重要成因之一。那什么样的饮食习惯是易患结石的呢?  “吃出”结石  喝水少、水质差最易引发结石:水是生命之源,是人类赖以生存和发展的不可缺少的最重要的物质资源之一。人体70%的成分是水,其代谢、排毒都需大量水分。所以饮水不足、水质差均
最近,一篇名为《别瞎吃,西南人民肾不行》的文章将西南人民的美食折耳根推上了舆论的风口浪尖。文中提到,因折耳根含有致病物——马兜铃内酰胺,食用折耳根可能引發马兜铃肾病。消息一出便引发了广泛的讨论,而讨论的焦点也集中在折耳根到底有没有毒,能不能吃的争议上。  马兜铃酸不等于马兜铃内酰胺  此次将“马兜铃酸”再次带入公众视野的,是权威科学杂志《Science》子刊《科学转化医学》(ScienceTran
10亿多年的地质演化为贵州铸就了丰富多彩、特色独具的喀斯特地貌和地质遗迹,在此遗迹之上,贵州建成了“天下第一洞”的世界地质公园织金洞,关岭古生物化石群、兴义、绥阳双河洞、赤水丹霞、六盘水乌蒙山、平塘、思南乌江喀斯特、黔东南苗岭等9个国家地质公园和万山国家矿山公园及黔南独山、贵阳乌当、贵阳花溪三个省级地质公园,还有罗甸板庚滩和湄潭天生桥群两个县市级地质公园。  这些地质公园遗迹保存完好、种类多、品位
ComparisonofEffectsofMPTCPandPTCPCeramicsImplantedfortheTreatmentofBoneDefectsinRabbitsWUHua(吴华);ZHUTong-bo(朱通伯);DUJing-yuan(...
ClosedAnesthesiawithNitrousOxideLIShitong(李士通);WANGZhengping(汪正平);ZENGBangxiong(曾邦雄);LIUJunjie(刘俊杰)(DepartmentofAnesthesiolog...
"暗物质粒子探测卫星"悟空"已经升空了,此后它将踏上寻找暗物质的漫漫征途。那么,暗物质到底是什么?为什么科学家们都想要找到它?"
猕猴桃,又叫奇异果,基维果,KIWI fruit,胡桃,羊桃,其原产地在中国,在我国的文字记载已有2000余年的历史,然而到了是20世纪初才由野生植株转进为人工驯化栽培,也就是说猕猴桃至今仅有100多年的人工栽培时间。水果之王绝非浪得虚名  那它因何被称为“水果之王”呢?首先,它营养丰富、风味独特。猕猴桃果实富含糖、维生素、矿物质、氨基酸、纤维素等多种营养成分,其中维生素C含量为普通水果的数倍,被
ExperimentalStudiesofEmbolizationofDifferentHepatotropicBloodVesselsUsingBletillaStriatainDogs¥Abstract:FENGXian-song(Departm...
从字面理解,大数据描述的是一个巨量数据的概念。而在实际的应用中,“大数据”跟“光年”的词性更加相像:当光指引到时间中,就成为了描述距离的单位,而把海量的有效数据进行有针对性的整合分析时,他就可以对用户行为进行描述,为我们的生活提供各种各样的决策和指引。  这样的特质决定了大数据跟创业的关系是密不可分的,一方面它的运用可以放大创业项目的效果,另一方面大数据本身是近几年才走红的,它的诸多方面都有待挖掘
近日,英国牛津郡科茨沃尔德野生动物园成功培育出了8只稀有的越南棱皮树蛙,这也是该公园首次成功培育该品种蛙类。  越南棱皮树蛙原产越南北部深山中,首次发现于1903年。它的皮肤棕绿相间,好似披着一层苔藓,堪称自然界“伪装大师”。这种蛙最长可达9厘米,通常雌性蛙体积比雄性蛙大。越南棱皮树蛙非常罕见,世界自然保护联盟曾将其列为“受威胁物种”。(来源:《英国每日邮报》2016年3月11日)  天宫一号全面