论文部分内容阅读
11月30日,“Hadoop与大数据技术大会”在北京举行。其实,早在5年前,以Hadoop为主题的研讨会就开始在中国举办。去年在北京召开的Hadoop大会也吸引了近千人参加。业界似乎已经有了这样一个共识:Hadoop是一个理想的大数据处理平台。在面对“数据洪流”猛烈冲击的今天,各类企业都对Hadoop产生了浓厚的兴趣。据主办方介绍,今年的大会首次将Hadoop与大数据并列,目的就是为了让用户能够更好地了解Hadoop与大数据之间的关系。
大数据市场刚刚萌芽
有人这样说,20世纪是“石油时代”,21世纪则是“数据为王”的时代。以我们今天的眼光来看,数据与石油一样,都是一种重要的资源,只不过大数据应用还处于发展的初级阶段,而石油的勘探和应用技术已经十分成熟。对于众多的互联网企业来说,Hadoop已经是一个比较好的数据处理工具,但是以石油勘探技术的成熟度作为参照,那么Hadoop还存在许多不足不处。虽然很多人言必提大数据,但是大多数人还搞不清到底什么是大数据。
以前搞图形图像处理的、研究高性能计算的,还有做社会计算的,现在都声称自己做的是大数据研究。这让很多人怀疑:大数据会不会仅是一个美丽的“包装”,有炒作之嫌。Hadoop大会的召开,一个很重要的目的就是澄清关于大数据的一些概念,还要就大数据的相关技术问题、应用实践以及大数据的生态系统进行深入探讨,并对企业日后的大数据项目实施给予指导。
本次Hadoop大会的学术氛围比较重,会议用了大部分时间对大数据的定义、基本架构以及相关学科、大数据的技术挑战与发展趋势等进行了研讨。今年,会议主办方中国计算机学会成立了大数据专家委员会。该专家委员会在本次大会上发布了一项关于大数据的最新调研结果,提出了大数据值得关注的八大热点问题以及2013年大数据的十大发展趋势,值得关注。
从调查结果看,大数据的特性与数据态、大数据的安全和隐私问题、大数据对IT架构的挑战以及大数据的应用与产业链等问题将成为未来市场关注的焦点问题。只有解决了这些关于大数据的基础性问题,大数据产业才可能走上良性发展的道路。中国的大数据市场才刚刚萌芽,这是与会者的一个共识。中国计算机学会大数据专家委员会秘书长程学旗表示:“2013年,针对大数据会兴起一股投资热潮,相关的融资、并购和IPO会大量涌现。在大数据行业内,大企业并购一些有特色的中小企业将成为热点。”
八大热门话题
2012年3月,美国政府整合6个部门宣布了一项两亿美元的“大数据研究与发展计划”,把对大数据的研究提升到国家战略的高度。欧盟也有类似的举措。无论从国家还是社会层面看,大数据都已经成为重要的战略资源,也是新的战略制高点,此外也是企业提升自身竞争力的一个强有力的武器。关于大数据,人们最关注的有以下几个问题。
第一,更大的数据量。从表面上看,大数据最突出的一个特征就是数据量“大”,但是对于这个“大”并没有一个统一的标准。以今天的标准来衡量,PB级的数据量就可以称为是大数据,但是未来PB级的数据量可能就显得不够大了。通常来说,数据量大、快速、数据的多样性、价值密度低等是大数据的基本特性。随着数据量不断增加,从海量数据中挖掘和提取出有价值的数据的难度也会逐步增加。可以预见,一些大型企业将开始采用大数据工具。
第二,大数据分析的革命性方法。就像计算机和互联网一样,大数据将引发新一轮的技术革命。基于大数据的数据挖掘、机器学习、人工智能等技术可能会改变以前“小数据、小世界”里的很多算法甚至是基础理论。
第三,大数据与云计算的深度融合。大数据处理离不开云计算。云计算可为大数据提供弹性、可扩展的基础架构支撑环境以及高效的数据服务模式。大数据则为云计算提供了新的商业价值。大数据将与云计算实现更完美的融合。云计算、物联网、移动互联网既是大数据产生的沃土,同时也是急需大数据分析方法及工具的应用领域。
第四,大数据应用会率先在医疗、金融、电子商务、城市管理等领域实现突破。
第五,大数据的安全性问题。总体来说,大数据的安全令人担心。数据量不断增加,不仅对物理存储设备的安全性会提出更高的要求,而且对数据的备份和容灾机制也会提出更高的要求。网络和数字化生活使得犯罪分子更容易得到关于企业和个人的信息。
第六,个人隐私越来越难以保护。现有的关于个人隐私保护的技术手段并不能适应大数据的环境。
第七,数据科学将会作为一个与大数据相关的学科出现,一些高校会设立与大数据相关的专业,同时与大数据相关的专业著作也不断涌现。中国计算机学会大数据专家委员会的调查显示,大数据分析与预测、分布式计算、社会计算将成为人们最关注的大数据学科。
第八,大数据产业的兴起将催生一批新的职业岗位,比如数据分析师、数据科学家、数据工程师等,具有丰富经验的数据分析人才将成为稀缺资源。Yahoo、eBay等公司的中国研发中心在本次Hadoop大会上摆开了大规模招聘的架式。Yahoo资深研发总监朱金生表示:“研发将成为未来Yahoo公司的一个重要支柱。在大数据时代,我们面临的最大挑战之一就是人才短缺。我们希望在中国本地招聘和培养更多的大数据、移动互联网研发人员。”
降低应用的门槛
一些企业用户曾向记者表示,非常希望采用Hadoop,但是Hadoop平台比较复杂,而且在实际应用之前还要做一些附加的开发工作,而企业又缺少掌握Hadoop技术的专业人才,所以Hadoop在中国企业中的普及速度比较慢。
许多IT厂商为了降低Hadoop平台的应用门槛,就在Hadoop平台的基础上进行了二次开发,或者自行推出Hadoop软件的发行版。
比如,VMware就将Hadoop平台移植到虚拟平台上,从而简化了Hadoop平台的部署和使用。英特尔也于今年7月首次发布了Hadoop的发行版,在本次大会上又推出了Hadoop发行版的免费版本。英特尔亚太研发集团总经理何京翔解释说:“我们之所以发布Hadoop发行版的免费版本,就是想让更多的人能够真正使用Hadoop。”
英特尔的一个目标是,将Hadoop打造成下一代分析平台的基石。在众多的大数据软件工具中,英特尔为什么偏偏选中了Hadoop呢?“我们最初考察大数据产品时,Hadoop还处于测试阶段。与其他大数据产品相比,Hadoop在架构、性能等方面显得实力更加平均。”何京翔表示,“Hadoop最初只是一个适合互联网用户使用的数据批处理工具,而在企业中应用还有很多不完善的地方。因此,我们对Hadoop进行了必要的改造,使它能够满足企业用户对大数据实时处理的要求。其实,除了Hadoop平台以外,我们还在跟踪、研究其他的一些大数据平台和技术。”
英特尔在大数据方面的一个基本策略是:提供一个能够连接、支持其他硬件、软件与应用的大数据基础平台。大数据工具不仅仅可以在互联网领域发挥重要作用,在金融、电信、智慧城市、政府、零售、制造业、医疗等领域都有用武之地。在上述行业里,英特尔的大数据解决方案已经有了成功的应用。从参与本次大会的很多企业提供的解决方案看,它们的一个主要目的是将Hadoop平台推广到更广泛的企业中去,而不仅限于互联网企业。
开栏语
Hadoop与大数据技术大会的召开让大数据又一次成为业界讨论的热点。在这样的背景下,我们的大数据专栏也应运而生。我们希望借助Hadoop大会这股东风,围绕着大数据的技术、应用与实践以及生态系统的建立与各位专家、读者进行一轮深入的互动和讨论。
如果您有任何关于大数据方面的问题或建议,请通过邮件与我们联系,[email protected]。
大数据市场刚刚萌芽
有人这样说,20世纪是“石油时代”,21世纪则是“数据为王”的时代。以我们今天的眼光来看,数据与石油一样,都是一种重要的资源,只不过大数据应用还处于发展的初级阶段,而石油的勘探和应用技术已经十分成熟。对于众多的互联网企业来说,Hadoop已经是一个比较好的数据处理工具,但是以石油勘探技术的成熟度作为参照,那么Hadoop还存在许多不足不处。虽然很多人言必提大数据,但是大多数人还搞不清到底什么是大数据。
以前搞图形图像处理的、研究高性能计算的,还有做社会计算的,现在都声称自己做的是大数据研究。这让很多人怀疑:大数据会不会仅是一个美丽的“包装”,有炒作之嫌。Hadoop大会的召开,一个很重要的目的就是澄清关于大数据的一些概念,还要就大数据的相关技术问题、应用实践以及大数据的生态系统进行深入探讨,并对企业日后的大数据项目实施给予指导。
本次Hadoop大会的学术氛围比较重,会议用了大部分时间对大数据的定义、基本架构以及相关学科、大数据的技术挑战与发展趋势等进行了研讨。今年,会议主办方中国计算机学会成立了大数据专家委员会。该专家委员会在本次大会上发布了一项关于大数据的最新调研结果,提出了大数据值得关注的八大热点问题以及2013年大数据的十大发展趋势,值得关注。
从调查结果看,大数据的特性与数据态、大数据的安全和隐私问题、大数据对IT架构的挑战以及大数据的应用与产业链等问题将成为未来市场关注的焦点问题。只有解决了这些关于大数据的基础性问题,大数据产业才可能走上良性发展的道路。中国的大数据市场才刚刚萌芽,这是与会者的一个共识。中国计算机学会大数据专家委员会秘书长程学旗表示:“2013年,针对大数据会兴起一股投资热潮,相关的融资、并购和IPO会大量涌现。在大数据行业内,大企业并购一些有特色的中小企业将成为热点。”
八大热门话题
2012年3月,美国政府整合6个部门宣布了一项两亿美元的“大数据研究与发展计划”,把对大数据的研究提升到国家战略的高度。欧盟也有类似的举措。无论从国家还是社会层面看,大数据都已经成为重要的战略资源,也是新的战略制高点,此外也是企业提升自身竞争力的一个强有力的武器。关于大数据,人们最关注的有以下几个问题。
第一,更大的数据量。从表面上看,大数据最突出的一个特征就是数据量“大”,但是对于这个“大”并没有一个统一的标准。以今天的标准来衡量,PB级的数据量就可以称为是大数据,但是未来PB级的数据量可能就显得不够大了。通常来说,数据量大、快速、数据的多样性、价值密度低等是大数据的基本特性。随着数据量不断增加,从海量数据中挖掘和提取出有价值的数据的难度也会逐步增加。可以预见,一些大型企业将开始采用大数据工具。
第二,大数据分析的革命性方法。就像计算机和互联网一样,大数据将引发新一轮的技术革命。基于大数据的数据挖掘、机器学习、人工智能等技术可能会改变以前“小数据、小世界”里的很多算法甚至是基础理论。
第三,大数据与云计算的深度融合。大数据处理离不开云计算。云计算可为大数据提供弹性、可扩展的基础架构支撑环境以及高效的数据服务模式。大数据则为云计算提供了新的商业价值。大数据将与云计算实现更完美的融合。云计算、物联网、移动互联网既是大数据产生的沃土,同时也是急需大数据分析方法及工具的应用领域。
第四,大数据应用会率先在医疗、金融、电子商务、城市管理等领域实现突破。
第五,大数据的安全性问题。总体来说,大数据的安全令人担心。数据量不断增加,不仅对物理存储设备的安全性会提出更高的要求,而且对数据的备份和容灾机制也会提出更高的要求。网络和数字化生活使得犯罪分子更容易得到关于企业和个人的信息。
第六,个人隐私越来越难以保护。现有的关于个人隐私保护的技术手段并不能适应大数据的环境。
第七,数据科学将会作为一个与大数据相关的学科出现,一些高校会设立与大数据相关的专业,同时与大数据相关的专业著作也不断涌现。中国计算机学会大数据专家委员会的调查显示,大数据分析与预测、分布式计算、社会计算将成为人们最关注的大数据学科。
第八,大数据产业的兴起将催生一批新的职业岗位,比如数据分析师、数据科学家、数据工程师等,具有丰富经验的数据分析人才将成为稀缺资源。Yahoo、eBay等公司的中国研发中心在本次Hadoop大会上摆开了大规模招聘的架式。Yahoo资深研发总监朱金生表示:“研发将成为未来Yahoo公司的一个重要支柱。在大数据时代,我们面临的最大挑战之一就是人才短缺。我们希望在中国本地招聘和培养更多的大数据、移动互联网研发人员。”
降低应用的门槛
一些企业用户曾向记者表示,非常希望采用Hadoop,但是Hadoop平台比较复杂,而且在实际应用之前还要做一些附加的开发工作,而企业又缺少掌握Hadoop技术的专业人才,所以Hadoop在中国企业中的普及速度比较慢。
许多IT厂商为了降低Hadoop平台的应用门槛,就在Hadoop平台的基础上进行了二次开发,或者自行推出Hadoop软件的发行版。
比如,VMware就将Hadoop平台移植到虚拟平台上,从而简化了Hadoop平台的部署和使用。英特尔也于今年7月首次发布了Hadoop的发行版,在本次大会上又推出了Hadoop发行版的免费版本。英特尔亚太研发集团总经理何京翔解释说:“我们之所以发布Hadoop发行版的免费版本,就是想让更多的人能够真正使用Hadoop。”
英特尔的一个目标是,将Hadoop打造成下一代分析平台的基石。在众多的大数据软件工具中,英特尔为什么偏偏选中了Hadoop呢?“我们最初考察大数据产品时,Hadoop还处于测试阶段。与其他大数据产品相比,Hadoop在架构、性能等方面显得实力更加平均。”何京翔表示,“Hadoop最初只是一个适合互联网用户使用的数据批处理工具,而在企业中应用还有很多不完善的地方。因此,我们对Hadoop进行了必要的改造,使它能够满足企业用户对大数据实时处理的要求。其实,除了Hadoop平台以外,我们还在跟踪、研究其他的一些大数据平台和技术。”
英特尔在大数据方面的一个基本策略是:提供一个能够连接、支持其他硬件、软件与应用的大数据基础平台。大数据工具不仅仅可以在互联网领域发挥重要作用,在金融、电信、智慧城市、政府、零售、制造业、医疗等领域都有用武之地。在上述行业里,英特尔的大数据解决方案已经有了成功的应用。从参与本次大会的很多企业提供的解决方案看,它们的一个主要目的是将Hadoop平台推广到更广泛的企业中去,而不仅限于互联网企业。
开栏语
Hadoop与大数据技术大会的召开让大数据又一次成为业界讨论的热点。在这样的背景下,我们的大数据专栏也应运而生。我们希望借助Hadoop大会这股东风,围绕着大数据的技术、应用与实践以及生态系统的建立与各位专家、读者进行一轮深入的互动和讨论。
如果您有任何关于大数据方面的问题或建议,请通过邮件与我们联系,[email protected]。