论文部分内容阅读
“我们以为自己需要信息,但其实我们真正需要的是知识。”
——《信号与噪音》
早在2008年,著名的科学杂志《自然》就推出了一期名为“大数据”的封面文章,详细讲述了“数据”在数学、物理、生物、工程及社会经济中所扮演的愈加重要的角色。如今这个原本晦涩的词语已经悄然成为了工商界和金融界的新宠。关于大数据的会议和论坛如雨后春笋般层出不穷,但到底什么是大数据,依然众说纷纭。“我们认为,大数据应该具有规模大、价值高、交叉复用、全息可见这四大特征,尤其是最后两个概念,它体现了大数据不仅仅有‘规模更大的数据’这种量上的进步,还具有不同于以前数据组织和应用形式的质的变化。”谈到大数据的前景,北京永洪商智科技有限公司总经理Arlene显得异常兴奋。
据了解,一般认为,大数据是数据分析的前沿技术,是新一代信息技术与产业发展的重点领域,随着现代市场经济的发展,大数据将成为全球整体发展新引擎的趋势也日益明显。正是预见到了“大数据时代”早晚会到来,欧美发达国家才纷纷把数据资产保护与利用上升为国家战略。另一方面,根据国际数据公司(IDC)的预测,中国有望很快开启全世界最大的大数据市场,2020年的市场规模可能超过2万亿元人民币。
凶猛的大数据
“如果每一个数据都只是孤立的,只能在和他直接关联的领域发挥自身价值,那这并不能说是一个数据革命的时代,我们要找到实现数据之间一加一远大于二的价值,其间最关键的问题就是发挥数据的外部性。”对于若干数据之间新的组织和应用形式,Arlene也有自己的想法,他向《中国新时代》记者表示,随着移动互联网的普及以及统计方法的日臻完善,大数据正在快速拓展它的应用范围。“比如,国家电网通过智能电表系统可以估计房屋空置率,阿里巴巴通过淘宝销售数据可以判断经济运行的走势,微博的关注关系和内容信息可以利用于广告推送等等。”
“具体到永洪科技而言,由于规模的原因,我们还不能和那些科技巨头相比较,但这并不影响公司的快速发展。在刚刚过去的2013年,我们又迎来了一大笔风险投资,虽然和巨头们尚有不小差距,不过在我们的领域已经算不错了。”Arlene补充说道。
但其他企业却没有这么幸运,据Arlene介绍,即便大数据在中国发展很快,但每年仍有不少公司倒闭,其中最大的原因就是方向的迷失。“以用户为中心,结合用户在不同领域留下的轨迹,实现数据交叉,这才是大数据产生价值的最可行途径之一。”Arlene说。
2012年初,北京永洪商智科技有限公司在北京理工大学留学生创业园成立。作为北京市的高新技术企业,永洪科技主要致力于广电、电信、移动、安全、互联网、政府等大型行业的专业咨询服务和系统建设,并积累了较丰富的数据资源。虽然成绩不错,但Arlene对于公司的主营业务也并不放心,用他的话说就是,“有人欢喜有人忧,凶猛的大数据像不可阻挡的浪潮,席卷了我们所有人,剩者为王,活得下去才能做大。”
而这一切的发端,归根结底还是有赖于互联网产业的发展。正是它的发展,使信息产生、组织和流通的方式都发生了革命性的变化,而最重要的改变莫过于单一个体第一次成为了信息产生和流通的主体。普通人上传网络的一张照片、一段视频;发送的电子邮件,聊天软件聊天,在电子商务网站购物,用信用卡支付……一切与互联网相关的信息流动都转化为数据,存储在服务器中。仅仅十余年,很多企业爬过MB时代,走过GB时代,现在正被赶着跑过TB时代,去迎接PB时代。就在当下的中国,很多大公司仅仅每天的更新数据量就已经接近或达到了PB量级。
但也有不同意见认为,数据规模在爆炸性增长的同时,数据产生的附加价值似乎没有与之同步增加,甚至有学者相信,数据价值的密度会随着数据量增加而降低。Arlene也向《中国新时代》记者谈了他的看法,“我认为,这其中没有绝对的因果联系,出现这种滞后情况的症结在于缺乏从海量数据中挖掘价值的高效方法和技术人员,这也是我们所努力的方向。”
他向记者表示,如果一组数据的价值是其规模的自然对数,当你从1GB的数据中挣到9块钱,给你1PB的数据,也只能挣到15块钱。而如果能充分挖掘数据价值,使该数据的价值和其规模成正比,那么,1PB的数据可以带来的收益就是九百万元。“这其中差别巨大,所以对于真正的大数据,其价值的增长应该正比于规模的增长,甚至快于它。”Arlene如是说道。
回忆起几年前创业的艰辛,Arlene坦言,定位的精准是永洪科技成功发展的关键。据了解,永洪科技的管理层是一支年轻的团队。作为国家重点扶持的留学生创业企业,公司的管理层成员均具有海外留学及从业经验。“我们的第一个大数据客户来自于电信产业,最开始是他们找到我们,那时公司还没有很好的客户和项目积累,后来他们又去考察国际国内其他厂商,当时我们觉得可能希望不大了。但一个月后他们回来了,决定和我们合作,后来他和我们说:考察了一圈,找不到比永洪科技更适合的厂商了。慢慢地,公司的客户多了起来,下一步我们打算去贵州看看,在那边寻找新的机会。”一位永宏科技的联合创始人这样说道。
贵州起航
永洪科技期望将贵州作为自己二次腾飞的起点,并非没有缘由。虽然北京等大城市的人才、市场优势非常明显,但诸如政策、地理集聚、人力成本等却是无法弥补的短板,而这正是贵州的优势。
2013年底,乘着贵阳高新技术产业开发区获国务院批准的春风,贵州再次成为了中国大数据产业的中心。几乎是在同一时间,中国电信、中国移动、中国联通等一大批数据巨头的云计算基地陆续在贵安新区破土动工。据了解,其中中国电信云计算中心总占地500亩,总投资70亿元,一期建成后服务器容量为100万台,2014年底起可陆续投入商用。中国移动(贵州)数据中心项目计划总投资20亿元,用地约275亩,项目总规模约21万平方米,包括16万平方米新型绿色数据中心机房,1万平米仓储用房,4万平米生产支持用房。中国联通(贵安)云计算基地占地约500亩,计划投资约50亿元,主要建设基础构架、数据中心资源地、灾备系统、机房建设等设施。 贵州省通信管理局局长李德明此前曾对外界表示,随着我国“四化同步”、“两化融合”、“产业升级”等一系列产业信息化扶持政策的出台,信息化已经成为贵州发展不可或缺的一环。“贵州数据中心作为行业应用信息化的物理载体,一定会有越来越多的企业,特别是通信运营企业开始新建或改造升级自身数据中心以提高自身信息化水平和企业核心竞争力。关于贵州大数据的说法众说纷纭,但不外乎一个,我们主要做的就是互联网服务器的托管与经营,这些都是构成互联网网络基础资源的重要部分,就像骨干网、接入网一样,我们目标就是要为互联网用户提供高端的数据存储、处理和传输服务。”李德明说。
Arlene也很看好贵州未来的发展,“建成后的大数据基地将会实现高科技、低成本、绿色节能。我相信,贵安新区可以凭借中国电信、中国移动、中国联通数据中心等重大项目,在数据采集、分析挖掘、应用服务领域得到发展,并推动电子政务、电子商务、智慧旅游、智能交通、智慧城市等产业起飞,最终达到国内领先水平。”而从地缘条件看,即将进入“高铁时代”的贵州因为正好处于中国东盟自由贸易区、中缅印孟经济走廊,所以是中国西南部地区重要的陆路交通枢纽。今后,随着中央及各部委的政策支持及贵安新区跻身国家级新区,在诸多政策和改革方面均有先行先试的可能。
另有业界分析师也对记者表示,贵州发展大数据产业优势主要在于:贵州远离地震带,具有地质结构稳定、灾害风险低的特点,大数据企业选择落户贵州能最大限度地降低企业的运营风险;同时贵州的能源优势能够为大数据企业提供廉价、稳定的电力资源,信息流和能源流也能够得到较好的结合;最后,贵州还是三大军工企业的基地,汇聚了一批航空航天电子装备企业和朗玛科技等新兴电子信息企业,具有一定的产业配套支撑能力。
重新发现大数据
“自从有了印刷术,我们的世界已经经历很多。信息不再那么稀有,我们拥有的信息太多,甚至多到无从下手,但是用到的却寥寥无几。我们的本能是主观地、有选择地看待信息,但对信息的曲解却关注不够。我们以为自己需要信息,但其实我们真正需要的是知识。”美国著名信息专家纳特·西尔弗在其专著《信号与噪音》中这样写道。
在此书中,他提出了一个著名的设问,即数据究竟对于我们的未来是有所帮助的信号,还是毫无意义的噪音?西尔弗成名于奥巴马竞选期间,当时美国大选选情胶着,但西尔弗却利用棒球的统计方法得出奥巴马必胜的结论。这一预测让他名声大震。但是他很快开始反思,利用大数据获得成功预测的案例远没有失败的多,为什么?对于现在普遍提到的大数据概念,系统的判断依赖的是历史数据,而人除了依赖于历史外还依赖于现场判断,有时候人的潜力并不能用数据表现。当西尔弗在棒球场利用大数据预测结果时,他发现球员的信念和专注力才是决定他在场上可以出色发挥的关键。而这两点,都是数据系统无法感知的,也不符合现在著名的“速度快,包含度高”的大数据定义。
Arlene也认为现在很多所谓大数据定义并不准确,甚至庸俗化了大数据的意义。“从我的经验出发,处理速度快就绝对不是大数据的特征,而仅仅是互联网信息服务的自身需求。十年前没有大数据,但互联网用户也不会苦等一个小时,虽然那时候信息量小,但实时计算的难度并不比现在小。”据Arlene介绍,现在很多典型的大数据运算,短的要几小时,长的可以达到数月甚至数年,可能具有同样巨大的价值。“显然,1秒钟算出结果不是大数据的特征,算得越快越好从人类发明计算就已经开始探索,把它当作当下数据时代的标签,显然并不合适。”Arlene说道。
事实上,在Arlene看来,数据的分析能力才是大数据最突出的问题。“举一个极端的例子,如果谷歌把每天超过1PB的数据按照自己内部的格式无偿开放给一个科研或创业团队,很大可能这些数据对团队的发展没有任何帮助,因为他们没有针对这种量级的数据进行检索、抓取、计算、分析的能力。也许他们仅仅只对数据内部的一个特定逻辑片段有兴趣,但是他们没有办法知道这个逻辑片段位于这个数据的哪个位置,以及通过什么办法获取。”
一方是迅速增长的数据量,一方是急需数据的市场,谁能联结二者,谁就有可能在竞争中领先,而这也是永洪科技的一直经营的“杀手锏”。据Arlene介绍,从成立伊始,永洪科技就协同合作伙伴在电商数据魔方、广电收视行为分析、电力大数据分析、交通大数据分析等数据联结领域展开深度合作。“大数据规模可以很大,但是用起来应该像操作一个‘小数据’一样简单,这就要求数据归纳得非常好,应做到内部的各种内容及关联清晰可见且容易调用获取。”Arlene如是说道。
——《信号与噪音》
早在2008年,著名的科学杂志《自然》就推出了一期名为“大数据”的封面文章,详细讲述了“数据”在数学、物理、生物、工程及社会经济中所扮演的愈加重要的角色。如今这个原本晦涩的词语已经悄然成为了工商界和金融界的新宠。关于大数据的会议和论坛如雨后春笋般层出不穷,但到底什么是大数据,依然众说纷纭。“我们认为,大数据应该具有规模大、价值高、交叉复用、全息可见这四大特征,尤其是最后两个概念,它体现了大数据不仅仅有‘规模更大的数据’这种量上的进步,还具有不同于以前数据组织和应用形式的质的变化。”谈到大数据的前景,北京永洪商智科技有限公司总经理Arlene显得异常兴奋。
据了解,一般认为,大数据是数据分析的前沿技术,是新一代信息技术与产业发展的重点领域,随着现代市场经济的发展,大数据将成为全球整体发展新引擎的趋势也日益明显。正是预见到了“大数据时代”早晚会到来,欧美发达国家才纷纷把数据资产保护与利用上升为国家战略。另一方面,根据国际数据公司(IDC)的预测,中国有望很快开启全世界最大的大数据市场,2020年的市场规模可能超过2万亿元人民币。
凶猛的大数据
“如果每一个数据都只是孤立的,只能在和他直接关联的领域发挥自身价值,那这并不能说是一个数据革命的时代,我们要找到实现数据之间一加一远大于二的价值,其间最关键的问题就是发挥数据的外部性。”对于若干数据之间新的组织和应用形式,Arlene也有自己的想法,他向《中国新时代》记者表示,随着移动互联网的普及以及统计方法的日臻完善,大数据正在快速拓展它的应用范围。“比如,国家电网通过智能电表系统可以估计房屋空置率,阿里巴巴通过淘宝销售数据可以判断经济运行的走势,微博的关注关系和内容信息可以利用于广告推送等等。”
“具体到永洪科技而言,由于规模的原因,我们还不能和那些科技巨头相比较,但这并不影响公司的快速发展。在刚刚过去的2013年,我们又迎来了一大笔风险投资,虽然和巨头们尚有不小差距,不过在我们的领域已经算不错了。”Arlene补充说道。
但其他企业却没有这么幸运,据Arlene介绍,即便大数据在中国发展很快,但每年仍有不少公司倒闭,其中最大的原因就是方向的迷失。“以用户为中心,结合用户在不同领域留下的轨迹,实现数据交叉,这才是大数据产生价值的最可行途径之一。”Arlene说。
2012年初,北京永洪商智科技有限公司在北京理工大学留学生创业园成立。作为北京市的高新技术企业,永洪科技主要致力于广电、电信、移动、安全、互联网、政府等大型行业的专业咨询服务和系统建设,并积累了较丰富的数据资源。虽然成绩不错,但Arlene对于公司的主营业务也并不放心,用他的话说就是,“有人欢喜有人忧,凶猛的大数据像不可阻挡的浪潮,席卷了我们所有人,剩者为王,活得下去才能做大。”
而这一切的发端,归根结底还是有赖于互联网产业的发展。正是它的发展,使信息产生、组织和流通的方式都发生了革命性的变化,而最重要的改变莫过于单一个体第一次成为了信息产生和流通的主体。普通人上传网络的一张照片、一段视频;发送的电子邮件,聊天软件聊天,在电子商务网站购物,用信用卡支付……一切与互联网相关的信息流动都转化为数据,存储在服务器中。仅仅十余年,很多企业爬过MB时代,走过GB时代,现在正被赶着跑过TB时代,去迎接PB时代。就在当下的中国,很多大公司仅仅每天的更新数据量就已经接近或达到了PB量级。
但也有不同意见认为,数据规模在爆炸性增长的同时,数据产生的附加价值似乎没有与之同步增加,甚至有学者相信,数据价值的密度会随着数据量增加而降低。Arlene也向《中国新时代》记者谈了他的看法,“我认为,这其中没有绝对的因果联系,出现这种滞后情况的症结在于缺乏从海量数据中挖掘价值的高效方法和技术人员,这也是我们所努力的方向。”
他向记者表示,如果一组数据的价值是其规模的自然对数,当你从1GB的数据中挣到9块钱,给你1PB的数据,也只能挣到15块钱。而如果能充分挖掘数据价值,使该数据的价值和其规模成正比,那么,1PB的数据可以带来的收益就是九百万元。“这其中差别巨大,所以对于真正的大数据,其价值的增长应该正比于规模的增长,甚至快于它。”Arlene如是说道。
回忆起几年前创业的艰辛,Arlene坦言,定位的精准是永洪科技成功发展的关键。据了解,永洪科技的管理层是一支年轻的团队。作为国家重点扶持的留学生创业企业,公司的管理层成员均具有海外留学及从业经验。“我们的第一个大数据客户来自于电信产业,最开始是他们找到我们,那时公司还没有很好的客户和项目积累,后来他们又去考察国际国内其他厂商,当时我们觉得可能希望不大了。但一个月后他们回来了,决定和我们合作,后来他和我们说:考察了一圈,找不到比永洪科技更适合的厂商了。慢慢地,公司的客户多了起来,下一步我们打算去贵州看看,在那边寻找新的机会。”一位永宏科技的联合创始人这样说道。
贵州起航
永洪科技期望将贵州作为自己二次腾飞的起点,并非没有缘由。虽然北京等大城市的人才、市场优势非常明显,但诸如政策、地理集聚、人力成本等却是无法弥补的短板,而这正是贵州的优势。
2013年底,乘着贵阳高新技术产业开发区获国务院批准的春风,贵州再次成为了中国大数据产业的中心。几乎是在同一时间,中国电信、中国移动、中国联通等一大批数据巨头的云计算基地陆续在贵安新区破土动工。据了解,其中中国电信云计算中心总占地500亩,总投资70亿元,一期建成后服务器容量为100万台,2014年底起可陆续投入商用。中国移动(贵州)数据中心项目计划总投资20亿元,用地约275亩,项目总规模约21万平方米,包括16万平方米新型绿色数据中心机房,1万平米仓储用房,4万平米生产支持用房。中国联通(贵安)云计算基地占地约500亩,计划投资约50亿元,主要建设基础构架、数据中心资源地、灾备系统、机房建设等设施。 贵州省通信管理局局长李德明此前曾对外界表示,随着我国“四化同步”、“两化融合”、“产业升级”等一系列产业信息化扶持政策的出台,信息化已经成为贵州发展不可或缺的一环。“贵州数据中心作为行业应用信息化的物理载体,一定会有越来越多的企业,特别是通信运营企业开始新建或改造升级自身数据中心以提高自身信息化水平和企业核心竞争力。关于贵州大数据的说法众说纷纭,但不外乎一个,我们主要做的就是互联网服务器的托管与经营,这些都是构成互联网网络基础资源的重要部分,就像骨干网、接入网一样,我们目标就是要为互联网用户提供高端的数据存储、处理和传输服务。”李德明说。
Arlene也很看好贵州未来的发展,“建成后的大数据基地将会实现高科技、低成本、绿色节能。我相信,贵安新区可以凭借中国电信、中国移动、中国联通数据中心等重大项目,在数据采集、分析挖掘、应用服务领域得到发展,并推动电子政务、电子商务、智慧旅游、智能交通、智慧城市等产业起飞,最终达到国内领先水平。”而从地缘条件看,即将进入“高铁时代”的贵州因为正好处于中国东盟自由贸易区、中缅印孟经济走廊,所以是中国西南部地区重要的陆路交通枢纽。今后,随着中央及各部委的政策支持及贵安新区跻身国家级新区,在诸多政策和改革方面均有先行先试的可能。
另有业界分析师也对记者表示,贵州发展大数据产业优势主要在于:贵州远离地震带,具有地质结构稳定、灾害风险低的特点,大数据企业选择落户贵州能最大限度地降低企业的运营风险;同时贵州的能源优势能够为大数据企业提供廉价、稳定的电力资源,信息流和能源流也能够得到较好的结合;最后,贵州还是三大军工企业的基地,汇聚了一批航空航天电子装备企业和朗玛科技等新兴电子信息企业,具有一定的产业配套支撑能力。
重新发现大数据
“自从有了印刷术,我们的世界已经经历很多。信息不再那么稀有,我们拥有的信息太多,甚至多到无从下手,但是用到的却寥寥无几。我们的本能是主观地、有选择地看待信息,但对信息的曲解却关注不够。我们以为自己需要信息,但其实我们真正需要的是知识。”美国著名信息专家纳特·西尔弗在其专著《信号与噪音》中这样写道。
在此书中,他提出了一个著名的设问,即数据究竟对于我们的未来是有所帮助的信号,还是毫无意义的噪音?西尔弗成名于奥巴马竞选期间,当时美国大选选情胶着,但西尔弗却利用棒球的统计方法得出奥巴马必胜的结论。这一预测让他名声大震。但是他很快开始反思,利用大数据获得成功预测的案例远没有失败的多,为什么?对于现在普遍提到的大数据概念,系统的判断依赖的是历史数据,而人除了依赖于历史外还依赖于现场判断,有时候人的潜力并不能用数据表现。当西尔弗在棒球场利用大数据预测结果时,他发现球员的信念和专注力才是决定他在场上可以出色发挥的关键。而这两点,都是数据系统无法感知的,也不符合现在著名的“速度快,包含度高”的大数据定义。
Arlene也认为现在很多所谓大数据定义并不准确,甚至庸俗化了大数据的意义。“从我的经验出发,处理速度快就绝对不是大数据的特征,而仅仅是互联网信息服务的自身需求。十年前没有大数据,但互联网用户也不会苦等一个小时,虽然那时候信息量小,但实时计算的难度并不比现在小。”据Arlene介绍,现在很多典型的大数据运算,短的要几小时,长的可以达到数月甚至数年,可能具有同样巨大的价值。“显然,1秒钟算出结果不是大数据的特征,算得越快越好从人类发明计算就已经开始探索,把它当作当下数据时代的标签,显然并不合适。”Arlene说道。
事实上,在Arlene看来,数据的分析能力才是大数据最突出的问题。“举一个极端的例子,如果谷歌把每天超过1PB的数据按照自己内部的格式无偿开放给一个科研或创业团队,很大可能这些数据对团队的发展没有任何帮助,因为他们没有针对这种量级的数据进行检索、抓取、计算、分析的能力。也许他们仅仅只对数据内部的一个特定逻辑片段有兴趣,但是他们没有办法知道这个逻辑片段位于这个数据的哪个位置,以及通过什么办法获取。”
一方是迅速增长的数据量,一方是急需数据的市场,谁能联结二者,谁就有可能在竞争中领先,而这也是永洪科技的一直经营的“杀手锏”。据Arlene介绍,从成立伊始,永洪科技就协同合作伙伴在电商数据魔方、广电收视行为分析、电力大数据分析、交通大数据分析等数据联结领域展开深度合作。“大数据规模可以很大,但是用起来应该像操作一个‘小数据’一样简单,这就要求数据归纳得非常好,应做到内部的各种内容及关联清晰可见且容易调用获取。”Arlene如是说道。