论文部分内容阅读
2012年,Twitter上每天发布超过4亿条微博,Facebook上每天更新的照片超过1000万张,Farecast公司用将近10万亿条价格记录来预测机票价格,准确率高达75%,采用该系统购票,平均每张机票可节省50美元。2011年,麦肯锡公司对全世界大数据的分布作了一个研究和统计,中国2010年新增的数据量约为250PB,而欧洲约为2000PB,美国约为3500PB,大数据已经渗透到了人类经济社会生活的各个方面。如何获取、聚集、分析大数据成为广泛关注的热点问题。
一、大数据的概念与特点
大数据是一个较为抽象的概念,至今尚无确切、统一的定义。在维基百科中关于大数据的定义为:大数据是指利用常用软件工具来获取、管理和处理数据所耗时间超过可容忍时间的数据集。
(一)数据量大
数据量大是大数据的基本属性。首先,随着互联网的广泛运用,数据获取、分享变得相对容易。其次,随着各种传感器数据获取能力的大幅提高,人们获取的数据越来越接近原始事物本身,描述同一事物的数据量激增。此外,数据量大还体现在人们处理数据的方法和理念发生了根本的改变。
(二)数据类型多样
数据类型繁多,复杂多变是大数据的重要特性。大数据与传统数据处理最大的不同就是重点关注非结构化信息,大数据关注包含大量细节信息的非结构化数据,强调小众化、体验化的特性使得传统的数据处理方式面临巨大的挑战。
(三)数据处理速度快
要求数据的快速处理,是大数据区别于传统海量数据处理的重要特性之一。快速增长的数据量要求数据处理的速度必须相应的提升,才能使得大量的数据得到有效的利用,否则不断激增的数据不但不能为解决问题带来优势,反而成了快速解决问题的负担。对不断激增的海量数据的实时处理要求,是大数据与传统海量数据处理技术的关键差别之一。
二、大数据要解决的核心问题
大数据的处理包括:获取与特定的应用相关的有用数据,并将数据聚合成便于存储、分析、查询的形式;分析数据的相关性,得出相关属性;采用合适的方式将数据分析的结果展示出来等过程。
(一)获取有用数据
对于实际应用来说,并不是数据越多越好,获取大量数据的目的是尽可能准确、详尽的描述事物的属性,对于特定的应用数据必须包含有用的信息,拥有包含足够信息的有效数据才是大数据的关键。
(二)数据分析
数据分析是大数据处理的关键,大量的数据本身并没有实际意义,只有针对特定的应用分析这些数据,使之转化成有用的结果,海量的数据才能发挥作用。
(三)数据显示
数据显示是将数据经过分析得到的结果以可见或可读形式输出,以方便用户获取相关信息。将用户与数据融合在一起,使用户直接与绘制结果交互,便于用户认识、理解数据。数据显示以准确、方便地向用户传递有效信息为目标,显示方法可以根据具体应用需要来选择。
三、大数据面临的挑战
实际上,大数据是一种新兴的理论,大数据的概念、技术、方法还远不成熟,在其发展的过程中还将面临多种挑战,不应过分夸大其先进性,我们还应看到其存在的不足。
(一)不能完全代替传统数据
当前大数据尚不能完全取代传统结构化数据,尽管大数据关注的非结构化数据的绝对数据量占总数据量的75%,但由于非结构化数据的价值偏低,有效的非结构化数据与结构化数据相比并不占绝对优势,对于某些特定的应用,结构化数据仍然占据主导地位。
(二)数据保护
互联网的发展使得获取数据虽然十分便利,但也给信息安全带来了巨大的挑战。当前,数据安全形势不容乐观,需要保护的数据量增长已超过了数据总量的增长。首先,个人隐私更容易通过网络泄露;其次,在国家层面大数据可能给国家安全带来隐患,如果在大数据处理方面落后,就可能导致数据的单向透明。美国发布大数据研发计划,大力发展大数据技术就有增强国家安全方面的战略布置。
(三)相关性预知
大数据时代,数据不再是静止和陈旧的,而是流动的、不断更新的。大数据是人们获得新的认知、创造新的价值的源泉,通过分析数据的相关性可能预知事物的发展方向,但不能希望通过大数据可以预知一切。
四、结语
随着社交网络、物联网、云计算的飞速发展,大量非结构化数据呈指数级快速增长,数据样式高度复杂,为人类认识世界、改造世界提供了重要资源。然而大数据的概念和相关技术还远未成熟,尚存在着一定的争议,面临着诸多挑战。我国是仅次于美国的数据大国,而我国大数据方面的研究尚处在起步阶段,如何开发、利用保护好大数据这一重要的战略资源,是我国当前亟待解决的问题。
(作者单位:西华大学经济学院)
一、大数据的概念与特点
大数据是一个较为抽象的概念,至今尚无确切、统一的定义。在维基百科中关于大数据的定义为:大数据是指利用常用软件工具来获取、管理和处理数据所耗时间超过可容忍时间的数据集。
(一)数据量大
数据量大是大数据的基本属性。首先,随着互联网的广泛运用,数据获取、分享变得相对容易。其次,随着各种传感器数据获取能力的大幅提高,人们获取的数据越来越接近原始事物本身,描述同一事物的数据量激增。此外,数据量大还体现在人们处理数据的方法和理念发生了根本的改变。
(二)数据类型多样
数据类型繁多,复杂多变是大数据的重要特性。大数据与传统数据处理最大的不同就是重点关注非结构化信息,大数据关注包含大量细节信息的非结构化数据,强调小众化、体验化的特性使得传统的数据处理方式面临巨大的挑战。
(三)数据处理速度快
要求数据的快速处理,是大数据区别于传统海量数据处理的重要特性之一。快速增长的数据量要求数据处理的速度必须相应的提升,才能使得大量的数据得到有效的利用,否则不断激增的数据不但不能为解决问题带来优势,反而成了快速解决问题的负担。对不断激增的海量数据的实时处理要求,是大数据与传统海量数据处理技术的关键差别之一。
二、大数据要解决的核心问题
大数据的处理包括:获取与特定的应用相关的有用数据,并将数据聚合成便于存储、分析、查询的形式;分析数据的相关性,得出相关属性;采用合适的方式将数据分析的结果展示出来等过程。
(一)获取有用数据
对于实际应用来说,并不是数据越多越好,获取大量数据的目的是尽可能准确、详尽的描述事物的属性,对于特定的应用数据必须包含有用的信息,拥有包含足够信息的有效数据才是大数据的关键。
(二)数据分析
数据分析是大数据处理的关键,大量的数据本身并没有实际意义,只有针对特定的应用分析这些数据,使之转化成有用的结果,海量的数据才能发挥作用。
(三)数据显示
数据显示是将数据经过分析得到的结果以可见或可读形式输出,以方便用户获取相关信息。将用户与数据融合在一起,使用户直接与绘制结果交互,便于用户认识、理解数据。数据显示以准确、方便地向用户传递有效信息为目标,显示方法可以根据具体应用需要来选择。
三、大数据面临的挑战
实际上,大数据是一种新兴的理论,大数据的概念、技术、方法还远不成熟,在其发展的过程中还将面临多种挑战,不应过分夸大其先进性,我们还应看到其存在的不足。
(一)不能完全代替传统数据
当前大数据尚不能完全取代传统结构化数据,尽管大数据关注的非结构化数据的绝对数据量占总数据量的75%,但由于非结构化数据的价值偏低,有效的非结构化数据与结构化数据相比并不占绝对优势,对于某些特定的应用,结构化数据仍然占据主导地位。
(二)数据保护
互联网的发展使得获取数据虽然十分便利,但也给信息安全带来了巨大的挑战。当前,数据安全形势不容乐观,需要保护的数据量增长已超过了数据总量的增长。首先,个人隐私更容易通过网络泄露;其次,在国家层面大数据可能给国家安全带来隐患,如果在大数据处理方面落后,就可能导致数据的单向透明。美国发布大数据研发计划,大力发展大数据技术就有增强国家安全方面的战略布置。
(三)相关性预知
大数据时代,数据不再是静止和陈旧的,而是流动的、不断更新的。大数据是人们获得新的认知、创造新的价值的源泉,通过分析数据的相关性可能预知事物的发展方向,但不能希望通过大数据可以预知一切。
四、结语
随着社交网络、物联网、云计算的飞速发展,大量非结构化数据呈指数级快速增长,数据样式高度复杂,为人类认识世界、改造世界提供了重要资源。然而大数据的概念和相关技术还远未成熟,尚存在着一定的争议,面临着诸多挑战。我国是仅次于美国的数据大国,而我国大数据方面的研究尚处在起步阶段,如何开发、利用保护好大数据这一重要的战略资源,是我国当前亟待解决的问题。
(作者单位:西华大学经济学院)