让更多人能够使用Hadoop

来源 :中国计算机报 | 被引量 : 0次 | 上传用户:jrff1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  11月30日,“Hadoop与大数据技术大会”在北京举行。其实,早在5年前,以Hadoop为主题的研讨会就开始在中国举办。去年在北京召开的Hadoop大会也吸引了近千人参加。业界似乎已经有了这样一个共识:Hadoop是一个理想的大数据处理平台。在面对“数据洪流”猛烈冲击的今天,各类企业都对Hadoop产生了浓厚的兴趣。据主办方介绍,今年的大会首次将Hadoop与大数据并列,目的就是为了让用户能够更好地了解Hadoop与大数据之间的关系。
  大数据市场刚刚萌芽
  有人这样说,20世纪是“石油时代”,21世纪则是“数据为王”的时代。以我们今天的眼光来看,数据与石油一样,都是一种重要的资源,只不过大数据应用还处于发展的初级阶段,而石油的勘探和应用技术已经十分成熟。对于众多的互联网企业来说,Hadoop已经是一个比较好的数据处理工具,但是以石油勘探技术的成熟度作为参照,那么Hadoop还存在许多不足不处。虽然很多人言必提大数据,但是大多数人还搞不清到底什么是大数据。
  以前搞图形图像处理的、研究高性能计算的,还有做社会计算的,现在都声称自己做的是大数据研究。这让很多人怀疑:大数据会不会仅是一个美丽的“包装”,有炒作之嫌。Hadoop大会的召开,一个很重要的目的就是澄清关于大数据的一些概念,还要就大数据的相关技术问题、应用实践以及大数据的生态系统进行深入探讨,并对企业日后的大数据项目实施给予指导。
  本次Hadoop大会的学术氛围比较重,会议用了大部分时间对大数据的定义、基本架构以及相关学科、大数据的技术挑战与发展趋势等进行了研讨。今年,会议主办方中国计算机学会成立了大数据专家委员会。该专家委员会在本次大会上发布了一项关于大数据的最新调研结果,提出了大数据值得关注的八大热点问题以及2013年大数据的十大发展趋势,值得关注。
  从调查结果看,大数据的特性与数据态、大数据的安全和隐私问题、大数据对IT架构的挑战以及大数据的应用与产业链等问题将成为未来市场关注的焦点问题。只有解决了这些关于大数据的基础性问题,大数据产业才可能走上良性发展的道路。中国的大数据市场才刚刚萌芽,这是与会者的一个共识。中国计算机学会大数据专家委员会秘书长程学旗表示:“2013年,针对大数据会兴起一股投资热潮,相关的融资、并购和IPO会大量涌现。在大数据行业内,大企业并购一些有特色的中小企业将成为热点。”
  八大热门话题
  2012年3月,美国政府整合6个部门宣布了一项两亿美元的“大数据研究与发展计划”,把对大数据的研究提升到国家战略的高度。欧盟也有类似的举措。无论从国家还是社会层面看,大数据都已经成为重要的战略资源,也是新的战略制高点,此外也是企业提升自身竞争力的一个强有力的武器。关于大数据,人们最关注的有以下几个问题。
  第一,更大的数据量。从表面上看,大数据最突出的一个特征就是数据量“大”,但是对于这个“大”并没有一个统一的标准。以今天的标准来衡量,PB级的数据量就可以称为是大数据,但是未来PB级的数据量可能就显得不够大了。通常来说,数据量大、快速、数据的多样性、价值密度低等是大数据的基本特性。随着数据量不断增加,从海量数据中挖掘和提取出有价值的数据的难度也会逐步增加。可以预见,一些大型企业将开始采用大数据工具。
  第二,大数据分析的革命性方法。就像计算机和互联网一样,大数据将引发新一轮的技术革命。基于大数据的数据挖掘、机器学习、人工智能等技术可能会改变以前“小数据、小世界”里的很多算法甚至是基础理论。
  第三,大数据与云计算的深度融合。大数据处理离不开云计算。云计算可为大数据提供弹性、可扩展的基础架构支撑环境以及高效的数据服务模式。大数据则为云计算提供了新的商业价值。大数据将与云计算实现更完美的融合。云计算、物联网、移动互联网既是大数据产生的沃土,同时也是急需大数据分析方法及工具的应用领域。
  第四,大数据应用会率先在医疗、金融、电子商务、城市管理等领域实现突破。
  第五,大数据的安全性问题。总体来说,大数据的安全令人担心。数据量不断增加,不仅对物理存储设备的安全性会提出更高的要求,而且对数据的备份和容灾机制也会提出更高的要求。网络和数字化生活使得犯罪分子更容易得到关于企业和个人的信息。
  第六,个人隐私越来越难以保护。现有的关于个人隐私保护的技术手段并不能适应大数据的环境。
  第七,数据科学将会作为一个与大数据相关的学科出现,一些高校会设立与大数据相关的专业,同时与大数据相关的专业著作也不断涌现。中国计算机学会大数据专家委员会的调查显示,大数据分析与预测、分布式计算、社会计算将成为人们最关注的大数据学科。
  第八,大数据产业的兴起将催生一批新的职业岗位,比如数据分析师、数据科学家、数据工程师等,具有丰富经验的数据分析人才将成为稀缺资源。Yahoo、eBay等公司的中国研发中心在本次Hadoop大会上摆开了大规模招聘的架式。Yahoo资深研发总监朱金生表示:“研发将成为未来Yahoo公司的一个重要支柱。在大数据时代,我们面临的最大挑战之一就是人才短缺。我们希望在中国本地招聘和培养更多的大数据、移动互联网研发人员。”
  降低应用的门槛
  一些企业用户曾向记者表示,非常希望采用Hadoop,但是Hadoop平台比较复杂,而且在实际应用之前还要做一些附加的开发工作,而企业又缺少掌握Hadoop技术的专业人才,所以Hadoop在中国企业中的普及速度比较慢。
  许多IT厂商为了降低Hadoop平台的应用门槛,就在Hadoop平台的基础上进行了二次开发,或者自行推出Hadoop软件的发行版。
  比如,VMware就将Hadoop平台移植到虚拟平台上,从而简化了Hadoop平台的部署和使用。英特尔也于今年7月首次发布了Hadoop的发行版,在本次大会上又推出了Hadoop发行版的免费版本。英特尔亚太研发集团总经理何京翔解释说:“我们之所以发布Hadoop发行版的免费版本,就是想让更多的人能够真正使用Hadoop。”
  英特尔的一个目标是,将Hadoop打造成下一代分析平台的基石。在众多的大数据软件工具中,英特尔为什么偏偏选中了Hadoop呢?“我们最初考察大数据产品时,Hadoop还处于测试阶段。与其他大数据产品相比,Hadoop在架构、性能等方面显得实力更加平均。”何京翔表示,“Hadoop最初只是一个适合互联网用户使用的数据批处理工具,而在企业中应用还有很多不完善的地方。因此,我们对Hadoop进行了必要的改造,使它能够满足企业用户对大数据实时处理的要求。其实,除了Hadoop平台以外,我们还在跟踪、研究其他的一些大数据平台和技术。”
  英特尔在大数据方面的一个基本策略是:提供一个能够连接、支持其他硬件、软件与应用的大数据基础平台。大数据工具不仅仅可以在互联网领域发挥重要作用,在金融、电信、智慧城市、政府、零售、制造业、医疗等领域都有用武之地。在上述行业里,英特尔的大数据解决方案已经有了成功的应用。从参与本次大会的很多企业提供的解决方案看,它们的一个主要目的是将Hadoop平台推广到更广泛的企业中去,而不仅限于互联网企业。
  开栏语
  Hadoop与大数据技术大会的召开让大数据又一次成为业界讨论的热点。在这样的背景下,我们的大数据专栏也应运而生。我们希望借助Hadoop大会这股东风,围绕着大数据的技术、应用与实践以及生态系统的建立与各位专家、读者进行一轮深入的互动和讨论。
  如果您有任何关于大数据方面的问题或建议,请通过邮件与我们联系,[email protected]
其他文献
·财经事件·    欧洲重组案初审完毕  TCL被判赔偿2 .1亿元   3月15日,TCL集团发布公告称,法国南特商业法庭2011年3月10日就TTE欧洲重组诉讼案进行了初审,要求TCL集团、TCL多媒体及其4家全资子公司向TTE欧洲之法定清盘人赔偿2310万欧元(约合2.1亿元),并付律师费和诉讼费用3万欧元(约合27.4万元)。TCL称反对该初审结果,并会采取一切必要行动提起上诉,争取驳回判
花样百出、针锋相对、大声痴呼——4月27日~28日,2011全球移动互联网大会(GMIC2011)上演了精彩的一幕幕。在共同勾勒产业现状的同时,也给我们留下了移动互联网未来发展的四大悬念。    关键字:终端    悬念一:生态圈之战愈演愈烈,苹果却死于“非命”?  “诺基亚买下了技术论坛的半天时间”,在GMIC2011召开之前,主办方长城会的一位内部人士告诉《中国计算机报》记者。  在诺基亚宣布
当人们生活中充斥着多种智能终端时,终端的数据容量和终端之间的数据共享成为人们关心的问题。SATA USM标准的诞生,也许有助于未来终端之间的互动。    现在,电视、机顶盒以及其他各种各样的终端设备都想要成为家庭娱乐中心,取代PC的地位。不过,当面对数量庞大的照片、视频以及其他形式的数字内容时,这些设备遇到了难题。一方面,它们大多要保持外观精美、体积小巧,因而无法容纳较大体积的硬盘,只能用价格昂贵
在6月29日舉办的“中国基础软件产业链整合发展高峰论坛暨人大金仓企业战略发布会”上记者了解到,产业链整合将成为国产基础软件市场化与产业化进程中的关键。  中国电子科技集团副总经理、人大金仓董事长胡爱民指出,大力发展国产基础软件是中国电子科技集团的战略之一,其目标是打造国产基础软件核心企业,建立产业化合作体系,促进国产基础软件发展。  人大金仓总经理任永杰表示,基础软件不是孤立的,需要整合产业链资源
数据中心是公司数字化运营的“心脏”。公司员工、合作伙伴和客户都需要依赖数据中心内的数据和资源进行有效的创造、协作和互动。在过去十年里,随着Internet和Web 技术的兴起,数据中心对提高生产效率、增强业务流程的认识越来越深刻,数据中心开始成为企业发展业务的战略重点。为满足这些目标,数据中心需要应对多种挑战。    高密度空间设计    根据摩尔定律所确定的计算机设备热负荷规律,普通的数据中心配
五年前,EMC全球高级副总裁暨大中华区总裁叶成辉刚刚走马上任就立下军令状,要用五年时间全面提升EMC在中国的业绩,包括在存储、软件、内容管理等多个细分市场上取得领先地位。如今,五年过去了,EMC中国在叶成辉的带领下,超额完成了五年计划的目标。EMC公司2010年财报显示,公司全球2010年比2009年销售业绩同比增长21%,亚太及日本区业绩增长23%,其中来自中国的贡献最大。  在3月1日举行的E
亿信华辰是北京市认定的“高新技术企业”和“软件企业”。公司拥有《i@Report基于WEB报表采集分析平台》、《BI@Report数据分析展示平台》、《银行商务智能平台软件》、《税收决策支持系统软件》等软件著作权,建立了一整套以核心产品为基础的网上直报、数据仓库、数据分析应用的综合解决方案。  亿信华辰拥有广泛的客户群,并得到用户的广泛好评和一致认可,也吸引了众多的合作伙伴。许多优秀的软件开发商选
继搜狐表示重金打造视频业务,将视频业务作为战略重点发展之后, 5月18日,刚刚成功IPO的凤凰网也发布了它最新的视频发展战略——“凤鸣计划”。与其他视频网站的UGC(用户创造内容)模式或影视剧点播的模式不同,凤凰视频将走“视频媒体”路线,整合凤凰网和凤凰卫视的相关资源,形成集视频观看、聚合、分发为一体的平台。  “凤凰视频的定位是最具媒体价值和影响力的综合视频门户。”凤凰网CEO刘爽表示,新闻、资
在互联网时代,虚假新闻的传播速度更快,传播范围扩大,造成的影响更广泛,后果更严重。因此,当看到博友发一则看似很有价值的消息时,不要急着将其转发出去,询问一下专业人士才是明智之举。  ——本报记者 霍光    类似“金庸先生去世”这样的假新闻也许会在短时间内让人们相信,但只要当事人出面澄清,谣言就能很快被破除。而包含部分真实信息的虚假新闻通过互联网广泛传播,造成的后果则可能更严重,影响更广、更长久。
继个人计算机、互联网变革之后,2010年,云计算作为第三次IT浪潮的代表向我们走来。它将带来人类生活、生产方式和商业模式的根本改变,成为当前全社会关注的热点。中国云计算产业发展分为市场准备期、起飞期和成熟期三个阶段。当前,中国云计算产业尚处于导入和准备阶段,处在大规模爆发的前夜。  2010年,中国云计算应用市场的发展速度明显加快。无论是政府、企业,还是高校、研究机构、媒体,都纷纷加入云计算产业生