论文部分内容阅读
摘 要:自从2012年美国政府推出《大数据研究和发展计划》以来,全球各组织、国家都纷纷在大数据战略推进方面积极行动,大数据相关的基础设施、产业应用和理论体系不断发展与完善,大数据正从单一的技术概念逐渐转化为新要素、新战略、新思维。然而,目前社会各界关于大数据的基本概念还没有形成统一、系统化的描述。为深入理解认识大数据的本质,更好挖掘利用大数据的潜能和优势,文章从大数据概念入手,从多个维度剖析了大数据的研究现状,梳理了大数据的概念演变及其特性,并对大数据发展的现状进行分析,以期为大数据研究提供指导。
关键词:大数据研究,概念,特征
中图分类号:N04;TP39;H059文献标识码:ADOI:10.3969/j.issn.1673-8578.2017.04.009
Abstract: Since the U.S. government launched the Big Data Research and Development Initiative in 2012, international organizations and countries around the world have taken active actions to implement big data strategies. As a result, big datarelated infrastructure, industrial applications and theoretical systems are developing and improving. Big data is gradually transforming from a single technical concept to new elements, new strategies and new ways of thinking. However, the various sectors of society still do not have a unified and systematic description of the basic concept of big data. In order to provide guidance for big data research, gain a comprehensive understanding of the nature of big data, and better utilize and exert the potential and advantages of big data, this paper starts from the concept of big data, analyzes the present research status of big data from multiple dimensions, highlights the concept evolution and characteristics of big data, and analyzes the development status of big data.
Keywords: big data research, concept, characteristics
一 定義及内涵
(一) 定义
大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合,正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态[1]。
(二)研究现状
目前,学术界、产业界、政府机构都对大数据的内涵和外延有过不同界定,其研究涉及性质特点、要素构成、技术系统、应用范围、价值来源等诸多方面。
(1)技术分析角度。这一类定义重点关注的是对海量、复杂数据进行分析处理,从而获得信息和知识的技术手段[2]。其中较为权威的观点来自于麦肯锡全球研究院(Mckinsey Global Institute, MGI)所发表的《大数据:下一个创新、竞争和生产力的前沿》,该报告提出:“大数据”是指其大小超出了典型数据库软件的采集、储存、管理和分析等能力的数据集。数据集成软件商纳斯达克(NASDAQ)认为,大数据包括了海量数据和复杂数据类型,其规模超过传统数据库进行管理和处理的能力。综合此类观点来看,一是大数据是一种难以处理的大规模数据集,二是需要特定的技术才能完成其采集、分析、应用等。
(2)大数据应用价值角度。这一类定义强调的是大数据的应用,关注的是从数据中获取有价值的信息和知识,最终目的是建立商业方面的竞争优势甚至是创新商业模式。高德纳咨询公司(Gartner Group)曾提出:大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。哈佛大学访问学者徐晋在《大数据经济学》中指出,大数据是指存在价值关联的海量数据。其本质是社会经济的离散化解构和全息化重构,表现为行业间海量数据的关系从量变到质变的转变(深度挖掘)。
(3)大数据对社会发展影响角度。这一类定义强调大数据对人类社会生产生活方式、思维范式等产生的重大影响,认为大数据开启了人类发展的新阶段,并且认为这种范式的影响是持久而深远的。数据科学家维克托·迈尔-舍恩伯格(Viktor MayerSchnberger)及肯尼斯·库克耶(Kenneth Cukier)在出版的《大数据时代》中提出,大数据是人们获得新的认知、创造新的价值的源泉;大数据还是改变市场、组织结构,以及政府与公民关系的方法[4]。哈佛大学定量社会学研究所主任盖瑞·金(Gary King)在名为“Why‘Big Data’Is a Big Deal”的演讲中指出,大数据技术完全是一场数据革命(big data revolution),这场革命对政府管理、学术及商业带来了很多颠覆式变革。他认为,大数据技术将触及任何一个领域,同时“大数据”时代还将引爆一场“哥白尼式革命”——它改变的不仅仅是信息生产力,更是信息生产关系。 二 起 源
(一)萌芽期
20世纪90年代兴起的复杂性科学,为人类提供了有机自然观,整体全局、关联、演化的复杂性思维方式和新的科学理论方法,也为大数据提供了理论基础,是大数据形成的萌芽阶段。1997年10月,美国国家航空航天局(NASA)阿姆斯研究中心的迈克尔·考克斯(Michael Cox)和大卫·埃尔斯沃斯(David Ellsworth)在第八届美国电气和电子工程师协会(Institute of Electrical and Electronics Engineers,IEEE)关于可视化的会议论文集中首次使用“大数据”概念,并界定了内涵。他们表示,日新月异的计算机技术迅猛生长,并带动了数据处理技术的革新,促使人类重新调整自身认识问题、解决问题的方法。1999年8月,史蒂夫·布赖森(Steve Bryson)等在《美国计算机和协会通讯》上发表了以“大数据的科学可视化”为副标题的论文,首次在期刊中使用“大数据”这一术语。
这一阶段的“大数据”多是一种概念构想,并逐渐开始被一些研究者作为一个术语使用,常直指“大量的数据或数据集”这样的字面含义,还没有涵盖到相关的收集、存储、分析、应用等技术方法与特征内涵。
(二)发展期
从20世纪末到21世纪初期是大数据的发展期,在这一阶段中大数据逐渐为学术界的研究者所关注。如经济学家弗朗西斯·X.迪博尔德(Francis X. Diebold)在2000年撰写《大数据,宏观经济度量与预测动态因素模型》来讨论大数据在经济分析方面的运用。英国Nature(自然)、美国Science(科学)等期刊分别出版了大数据专刊,从互联网技术、互联网经济学、超级计算、环境科学、生物医药等多个方面讨论了大数据处理面临的各种问题。在這一阶段中大数据逐渐为理论界的研究者所关注,相关的定义、内涵、特性也得到了进一步的丰富。
(三)成熟期
2011年至今,是大数据发展的成熟阶段。2011年5月,麦肯锡全球研究院(MGI)发布了《大数据:下一个具有创新力、竞争力与生产力的前沿领域》报告,系统阐述了大数据概念,列举了大数据的核心技术,分析了大数据在不同行业的应用,提出了政府和企业决策者应对大数据发展的策略。2012年,瑞士达沃斯召开的世界经济论坛上,大数据成为主题之一。同时,会上发布的报告《大数据,大影响》宣称,数据已经成为一种新的经济资产类别,就像货币或黄金一样。2014年后,世界经济论坛以“大数据的回报与风险”为主题发布了《全球信息技术报告》(第13版);美国发布了《大数据:抓住机遇、保存价值》;联合国启动“全球脉动”计划,并发布了《大数据促发展:挑战与机遇》;中国发布了《促进大数据发展行动纲要》;经济合作与发展组织(OECD)推出《使用大数据作决策》。越来越多的研究者对大数据的认识也从技术概念丰富到了信息资产与思维变革等多个维度,一些国家、社会组织、企业开始将大数据上升为重要战略。
三 特 性
大数据特性最早的提出者是麦塔集团(META Group,现为高德纳)分析师道格·莱尼(Doug Laney),他在研究报告《3D数据管理:控制数据数量、速度及种类》中指出,“数据激增的挑战和机遇是三维的,不仅仅在我们通常所理解的数据量(volume)层面,还包括数据进出的速度 (velocity) 以及数据种类范围 (variety)”。此后,研究者纷纷从特性角度去分析和理解大数据,并对这种“3V”的观点加以丰富。如IBM商业价值研究院在《分析:大数据在现实世界中的应用》报告中提出应增加准确性(veracity);弗雷斯特研究公司(Forrester Research)分析师布莱恩·霍普金斯和鲍里斯·埃韦尔松认为应增加易变性(variability)等。其中国际数据公司(International Data Corporation ,IDC)的观点最为权威,也得到了研究者的广泛认同,该公司在《从混沌中提取价值》报告中提出了大数据的“4V”特征,即:数据容量大(volume)、数据类型繁多(variety)、商业价值高(value)、处理速度快(velocity)。
(一)规模性(volume)
或称数据体量巨大。目前,大数据的规模尚是一个不断变化的指标,单一数据集的规模范围从几十TB到数PB不等,各方研究者虽然对大数据量的统计和预测结果并不完全相同,但一致认为数据量将急剧增长。
(二)多样性(variety)
即数据类型多样。从生成类型上分为交易数据、交互数据、传感数据;从数据来源上分为社交媒体、传感器数据、系统数据;从数据格式上分为文本、图片、音频、视频、光谱等;从数据关系上分为结构化、半结构化、非结构化数据;从数据所有者分为公司数据、政府数据、社会数据等。
(三)高速性(velocity)
数据的增长速度快,以及要求数据访问、处理、交付等速度快。数据创建、处理和分析的速度持续加快,其原因是数据创建的实时性属性,以及需要将流数据结合到业务流程和决策过程中的要求。速度影响数据时延——从数据创建或获取到数据可以访问的时间差。目前,数据以传统系统不可能达到的速度在产生、获取、存储和分析。对于对时间敏感的流程(例如实时欺诈监测或多渠道“即时”营销),某些类型的数据必须实时地分析,以对业务产生价值。
(四)价值性(value)
大数据价值巨大。大数据能够通过规模效应将低价值密度的数据整合为高价值、作用巨大的信息资产。如美国社交网站 Facebook 有10亿用户,网站对这些用户信息进行分析后,广告商可根据结果精准投放广告。对广告商而言,10亿用户的数据价值上千亿美元。据资料报道,2012 年,运用大数据的世界贸易额已达 60 亿美元。 (五)易变性(variability)
大数据具有多层结构。弗雷斯特研究公司(Forrester Research)分析师布赖恩·霍普金(Brian Hopkins)和鲍里斯·埃韦尔松(Boris Evelson)指出,大数据具有多层结构,这意味着大数据会呈现出多变的形式和类型。相较传统的业务数据,大数据存在不规则和模糊不清的特性,造成很难甚至无法使用传统的应用软件进行分析。
(六)准确性(veracity)
或称真实性,包括可信性、真伪性、来源和信誉的有效性和可审计性等子特征。一方面,对于网络环境下如此大量的数据需要采取措施确保其真实性、客观性,这是大数据技术与业务发展的迫切需求;另一方面,通過大数据分析,真实地还原和预测事物的本来面目也是大数据未来发展的趋势。IBM商业价值研究院在发布的《分析:大数据在现实世界中的应用》报告中指出,追求高数据质量是一项重要的大数据要求和挑战,但是,即使最优秀的数据清理方法也无法消除某些数据固有的不可预测性,例如天气、经济或者客户最终的购买决定。不确定性的确认和规划的需求是大数据的一个维度,这是随着高管需要更好地了解围绕他们身边的不确定性而引入的维度。
四 现状与发展
(一)数据战略
大数据全球战略布局全面升级。发达国家期望通过建立大数据竞争优势,巩固和加强领先地位。美国作为大数据发展的策源地和创新的引领者,最早正式发布国家大数据战略。2012年3月美国发布《大数据研究和发展倡议》(Big Data Research and Development Initiative),将大数据作为国家重要的战略资源进行管理和应用。继美国之后,全球各国家、组织都纷纷在大数据战略推进方面积极行动,各国的大数据发展战略形成以下特点:一是政府全力推动,同时引导市场力量共同推进大数据发展;二是推动大数据在政用、商用和民用领域的全产业链覆盖;三是重视数据资源的开放和管理的同时,全力抓好数据安全问题。
中国加快构建大数据战略体系。中国敏锐地把握了大数据的兴起及发展趋势。在短短几年内,大数据迅速成为我国社会各领域关注的热点。为促进大数据发展,加快建设数据强国,中国政府制定了一系列发展大数据的战略性政策。2015年8月国务院发布《促进大数据发展行动纲要》,提出全面推进中国大数据发展和应用,加快建设数据强国;同年10月,中共中央十八届五中全会将“大数据”写入会议公报并升格为国家战略;2016年3月,国家在出台的“十三五”规划纲要中再次明确大数据作为基础性战略资源的重大价值,要加快推动相关研发、应用及治理。2017年1月,《大数据产业发展规划(2016—2020年)》正式发布,全面制定了“十三五”期间的大数据产业发展计划。
地区大数据发展格局初步形成。在《促进大数据发展行动纲要》发布之前,广东、上海、贵州等地率先启动了大数据地方政策的先行先试。而在《促进大数据发展行动纲要》发布后,各地政府加快跟进。截至2017年2月,全国31个省份均出台了大数据相关政策文件。经过不断的探索与实践,地区大数据发展的梯次格局初步显现。北京、广东、上海等东部沿海地区产业基础完善、人才优势明显,成为发展的核心地区;而地处西部欠发达地区的贵州、重庆等地区,通过战略创新形成先发优势,政府积极实施政策引导,引进大数据相关产业、资本与人才,也在区域竞争格局中占据一席之地。
(二)数据资源
数据总量爆炸式增长。根据国际数据公司(IDC)《数字宇宙报告》,2020年以前全球数据量将保持40%以上的指数增长速度,大约每两年翻一番。
数据成为核心生产资料。与农业时代的土地、资源、劳动力,工业时代的技术、资本不同的是,数据是人类自己创造的全新的生产资料。在互联网没有出现之前,数据就已经存在,但互联网的发展才使数据流动和利用变得更为容易。数据用于记录、反馈和提升互动体验,过往杂乱、无用、静态的数据因为流动而变得鲜活,数据拥有了生命,能够用于量化决策与预测。发掘数据价值的技术成本降低,数据可以用在全局流程及价值优化,并且实现真正的数据业务化,产生新的社会经济价值。
判断数据价值成为数据管理的核心能力。数据总量的爆炸性增长也给存储、分析和使用大数据带来挑战。据统计,当下世界各大公司存储的数据中充斥着半数以上的价值模糊的暗数据,在总体中的占比能够达到52%;此外还有大约33%的历史数据处在难以发掘的尴尬处境,或是失去了时效性,或是难以进行二次利用以及价值含量过低。因此,除数据总量构成的挑战以外,大数据自身所包含的模糊性、时效性以及冗杂性,都对海量数据的价值挖掘能力提出了更高的诉求。因此,迫切需要开发者与决策者加快对大数据处理技术和分析能力的研究进程。
(三)数据流动
跨境数据流推动全球化进入新阶段。麦肯锡全球研究院(MGI)发布《数字全球化:新时代的全球性流动》(Digital Globalization:The New Era of Global FIows)报告提出,“2008年以来,在全球商品流动趋缓、跨境资本流动出现下滑的趋势下,全球化并没有因此而逆转或停滞。相反,因为跨境数据流的飙升,全球化进入了全新的发展阶段”。
数据开放建设取得初步成效。在2014年由澳大利亚Lateral Economics 所发布的Open for Business : How Open Data Can Help Achieve G20 Growth Target报告中就明确指出,开放数据将能够帮助G20国家在5年内实现1.1%的GDP增长,而单这一项带来的增长就已占到了G20国家5年GDP 增长总目标的50%。
面对开放数据所能带来的巨大潜能,中国也正推动全国范围的数据开放。构建交易平台成为促进数据流通主要举措。数据交易平台是数据交易行为的重要载体,可以促进数据资源整合、规范交易行为、降低交易成本、增强数据流动性。2015年前成立并投入运营的有北京大数据交易服务平台、贵阳大数据交易所、长江大数据交易所、东湖大数据交易平台、西咸新区大数据交易所和河北大数据交易中心。2016年新建设的有哈尔滨数据交易中心、江苏大数据交易中心、上海大数据交易中心以及浙江大数据交易中心。据贵阳大数据交易所发布的《2016年中国大数据交易白皮书》显示,中国的大数据交易市场在2015年的规模为33.85亿元,预计到2020年或将提升至545亿元。 (四)数据产业
大数据产业核心层将保持每年40%的增长速度。目前大数据产业的统计口径尚未建立,对于中国大数据产业的规模,各个研究机构均采取间接方法估算。通常认为,大数据产业核心层主要是指围绕大数据采集、存储、管理和挖掘等环节所形成的产业链条。中国大数据行业仍处于快速发展期,36氪研究院認为2018年中国大数据产业规模将超过500亿元,复合增长率为47.0%,是全球复合增长率的2.2倍。据中国信通院(CAICT)数据显示,2017—2018 年大数据核心产业还有着40%左右的高增长空间。
大数据产业规模2020年要突破1万亿元。广义大数据产业已超出了信息产业的范畴,其广义范围涵盖到关联层与衍生层各大领域的应用。2017年1月发布的《大数据产业发展规划(2016—2020年)》中所使用的大数据产业范围,其定义首先包含了围绕数据的采集、存储、加工等一系列经济现象,同时还涉及数据资源本身和相关硬件的产销环节,此外信息技术服务也可以归纳在内。《规划》提出,到2020年大数据产业要突破1万亿的规模,年均复合增长率要大致达到30%[7-13]。
参考文献
[1]国务院.促进大数据发展行动纲要[EB/OL]. http:∥www.gov.cn.
[2]大数据战略重点实验室.块数据2.0:大数据时代的范式革命[M].北京:中信出版社,2016.
[3]城田真琴.大数据的冲击[M].周自恒,译. 北京:人民邮电出版社,2013.
[4]维克托·迈尔-舍恩伯格,肯尼思·库克耶.大数据时代[M].盛杨燕,周涛,译.杭州:浙江人民出版社,2013.
[5]李国杰,程学旗.大数据的研究现状与科学思考[J].战略与决策研究,2012(6):647-657.
[6]倪光南.大数据的发展及应用[J].信息技术与标准化,2013(9):6-9.
[7]工业和信息化部.大数据产业发展规划(2016—2020年)[EB/OL]. http:∥www.miit.gov.cn.
[8]Franks B.驾驭大数据[M].黄海,车皓阳,王悦,等译.北京:人民邮电出版社,2013.
[9]涂子沛.大数据:正在到来的数据革命[M].桂林:广西师范大学出版社,2012.
[10]涂子沛.数据之巅:大数据革命,历史、现实与未来[M].北京:中信出版社,2014.
[11]艾伯特-拉斯洛·巴拉巴西.爆发:大数据时代预见未来的新思维[M].马慧,译.北京:中国人民大学出版社,2012.
[12]大数据战略重点实验室.块数据:大数据时代真正到来的标志[M].北京:中信出版社,2015.
[13]中国信息通信研究院.大数据白皮书(2016)[EB/OL]. http:∥www.catr.cn.
关键词:大数据研究,概念,特征
中图分类号:N04;TP39;H059文献标识码:ADOI:10.3969/j.issn.1673-8578.2017.04.009
Abstract: Since the U.S. government launched the Big Data Research and Development Initiative in 2012, international organizations and countries around the world have taken active actions to implement big data strategies. As a result, big datarelated infrastructure, industrial applications and theoretical systems are developing and improving. Big data is gradually transforming from a single technical concept to new elements, new strategies and new ways of thinking. However, the various sectors of society still do not have a unified and systematic description of the basic concept of big data. In order to provide guidance for big data research, gain a comprehensive understanding of the nature of big data, and better utilize and exert the potential and advantages of big data, this paper starts from the concept of big data, analyzes the present research status of big data from multiple dimensions, highlights the concept evolution and characteristics of big data, and analyzes the development status of big data.
Keywords: big data research, concept, characteristics
一 定義及内涵
(一) 定义
大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合,正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态[1]。
(二)研究现状
目前,学术界、产业界、政府机构都对大数据的内涵和外延有过不同界定,其研究涉及性质特点、要素构成、技术系统、应用范围、价值来源等诸多方面。
(1)技术分析角度。这一类定义重点关注的是对海量、复杂数据进行分析处理,从而获得信息和知识的技术手段[2]。其中较为权威的观点来自于麦肯锡全球研究院(Mckinsey Global Institute, MGI)所发表的《大数据:下一个创新、竞争和生产力的前沿》,该报告提出:“大数据”是指其大小超出了典型数据库软件的采集、储存、管理和分析等能力的数据集。数据集成软件商纳斯达克(NASDAQ)认为,大数据包括了海量数据和复杂数据类型,其规模超过传统数据库进行管理和处理的能力。综合此类观点来看,一是大数据是一种难以处理的大规模数据集,二是需要特定的技术才能完成其采集、分析、应用等。
(2)大数据应用价值角度。这一类定义强调的是大数据的应用,关注的是从数据中获取有价值的信息和知识,最终目的是建立商业方面的竞争优势甚至是创新商业模式。高德纳咨询公司(Gartner Group)曾提出:大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。哈佛大学访问学者徐晋在《大数据经济学》中指出,大数据是指存在价值关联的海量数据。其本质是社会经济的离散化解构和全息化重构,表现为行业间海量数据的关系从量变到质变的转变(深度挖掘)。
(3)大数据对社会发展影响角度。这一类定义强调大数据对人类社会生产生活方式、思维范式等产生的重大影响,认为大数据开启了人类发展的新阶段,并且认为这种范式的影响是持久而深远的。数据科学家维克托·迈尔-舍恩伯格(Viktor MayerSchnberger)及肯尼斯·库克耶(Kenneth Cukier)在出版的《大数据时代》中提出,大数据是人们获得新的认知、创造新的价值的源泉;大数据还是改变市场、组织结构,以及政府与公民关系的方法[4]。哈佛大学定量社会学研究所主任盖瑞·金(Gary King)在名为“Why‘Big Data’Is a Big Deal”的演讲中指出,大数据技术完全是一场数据革命(big data revolution),这场革命对政府管理、学术及商业带来了很多颠覆式变革。他认为,大数据技术将触及任何一个领域,同时“大数据”时代还将引爆一场“哥白尼式革命”——它改变的不仅仅是信息生产力,更是信息生产关系。 二 起 源
(一)萌芽期
20世纪90年代兴起的复杂性科学,为人类提供了有机自然观,整体全局、关联、演化的复杂性思维方式和新的科学理论方法,也为大数据提供了理论基础,是大数据形成的萌芽阶段。1997年10月,美国国家航空航天局(NASA)阿姆斯研究中心的迈克尔·考克斯(Michael Cox)和大卫·埃尔斯沃斯(David Ellsworth)在第八届美国电气和电子工程师协会(Institute of Electrical and Electronics Engineers,IEEE)关于可视化的会议论文集中首次使用“大数据”概念,并界定了内涵。他们表示,日新月异的计算机技术迅猛生长,并带动了数据处理技术的革新,促使人类重新调整自身认识问题、解决问题的方法。1999年8月,史蒂夫·布赖森(Steve Bryson)等在《美国计算机和协会通讯》上发表了以“大数据的科学可视化”为副标题的论文,首次在期刊中使用“大数据”这一术语。
这一阶段的“大数据”多是一种概念构想,并逐渐开始被一些研究者作为一个术语使用,常直指“大量的数据或数据集”这样的字面含义,还没有涵盖到相关的收集、存储、分析、应用等技术方法与特征内涵。
(二)发展期
从20世纪末到21世纪初期是大数据的发展期,在这一阶段中大数据逐渐为学术界的研究者所关注。如经济学家弗朗西斯·X.迪博尔德(Francis X. Diebold)在2000年撰写《大数据,宏观经济度量与预测动态因素模型》来讨论大数据在经济分析方面的运用。英国Nature(自然)、美国Science(科学)等期刊分别出版了大数据专刊,从互联网技术、互联网经济学、超级计算、环境科学、生物医药等多个方面讨论了大数据处理面临的各种问题。在這一阶段中大数据逐渐为理论界的研究者所关注,相关的定义、内涵、特性也得到了进一步的丰富。
(三)成熟期
2011年至今,是大数据发展的成熟阶段。2011年5月,麦肯锡全球研究院(MGI)发布了《大数据:下一个具有创新力、竞争力与生产力的前沿领域》报告,系统阐述了大数据概念,列举了大数据的核心技术,分析了大数据在不同行业的应用,提出了政府和企业决策者应对大数据发展的策略。2012年,瑞士达沃斯召开的世界经济论坛上,大数据成为主题之一。同时,会上发布的报告《大数据,大影响》宣称,数据已经成为一种新的经济资产类别,就像货币或黄金一样。2014年后,世界经济论坛以“大数据的回报与风险”为主题发布了《全球信息技术报告》(第13版);美国发布了《大数据:抓住机遇、保存价值》;联合国启动“全球脉动”计划,并发布了《大数据促发展:挑战与机遇》;中国发布了《促进大数据发展行动纲要》;经济合作与发展组织(OECD)推出《使用大数据作决策》。越来越多的研究者对大数据的认识也从技术概念丰富到了信息资产与思维变革等多个维度,一些国家、社会组织、企业开始将大数据上升为重要战略。
三 特 性
大数据特性最早的提出者是麦塔集团(META Group,现为高德纳)分析师道格·莱尼(Doug Laney),他在研究报告《3D数据管理:控制数据数量、速度及种类》中指出,“数据激增的挑战和机遇是三维的,不仅仅在我们通常所理解的数据量(volume)层面,还包括数据进出的速度 (velocity) 以及数据种类范围 (variety)”。此后,研究者纷纷从特性角度去分析和理解大数据,并对这种“3V”的观点加以丰富。如IBM商业价值研究院在《分析:大数据在现实世界中的应用》报告中提出应增加准确性(veracity);弗雷斯特研究公司(Forrester Research)分析师布莱恩·霍普金斯和鲍里斯·埃韦尔松认为应增加易变性(variability)等。其中国际数据公司(International Data Corporation ,IDC)的观点最为权威,也得到了研究者的广泛认同,该公司在《从混沌中提取价值》报告中提出了大数据的“4V”特征,即:数据容量大(volume)、数据类型繁多(variety)、商业价值高(value)、处理速度快(velocity)。
(一)规模性(volume)
或称数据体量巨大。目前,大数据的规模尚是一个不断变化的指标,单一数据集的规模范围从几十TB到数PB不等,各方研究者虽然对大数据量的统计和预测结果并不完全相同,但一致认为数据量将急剧增长。
(二)多样性(variety)
即数据类型多样。从生成类型上分为交易数据、交互数据、传感数据;从数据来源上分为社交媒体、传感器数据、系统数据;从数据格式上分为文本、图片、音频、视频、光谱等;从数据关系上分为结构化、半结构化、非结构化数据;从数据所有者分为公司数据、政府数据、社会数据等。
(三)高速性(velocity)
数据的增长速度快,以及要求数据访问、处理、交付等速度快。数据创建、处理和分析的速度持续加快,其原因是数据创建的实时性属性,以及需要将流数据结合到业务流程和决策过程中的要求。速度影响数据时延——从数据创建或获取到数据可以访问的时间差。目前,数据以传统系统不可能达到的速度在产生、获取、存储和分析。对于对时间敏感的流程(例如实时欺诈监测或多渠道“即时”营销),某些类型的数据必须实时地分析,以对业务产生价值。
(四)价值性(value)
大数据价值巨大。大数据能够通过规模效应将低价值密度的数据整合为高价值、作用巨大的信息资产。如美国社交网站 Facebook 有10亿用户,网站对这些用户信息进行分析后,广告商可根据结果精准投放广告。对广告商而言,10亿用户的数据价值上千亿美元。据资料报道,2012 年,运用大数据的世界贸易额已达 60 亿美元。 (五)易变性(variability)
大数据具有多层结构。弗雷斯特研究公司(Forrester Research)分析师布赖恩·霍普金(Brian Hopkins)和鲍里斯·埃韦尔松(Boris Evelson)指出,大数据具有多层结构,这意味着大数据会呈现出多变的形式和类型。相较传统的业务数据,大数据存在不规则和模糊不清的特性,造成很难甚至无法使用传统的应用软件进行分析。
(六)准确性(veracity)
或称真实性,包括可信性、真伪性、来源和信誉的有效性和可审计性等子特征。一方面,对于网络环境下如此大量的数据需要采取措施确保其真实性、客观性,这是大数据技术与业务发展的迫切需求;另一方面,通過大数据分析,真实地还原和预测事物的本来面目也是大数据未来发展的趋势。IBM商业价值研究院在发布的《分析:大数据在现实世界中的应用》报告中指出,追求高数据质量是一项重要的大数据要求和挑战,但是,即使最优秀的数据清理方法也无法消除某些数据固有的不可预测性,例如天气、经济或者客户最终的购买决定。不确定性的确认和规划的需求是大数据的一个维度,这是随着高管需要更好地了解围绕他们身边的不确定性而引入的维度。
四 现状与发展
(一)数据战略
大数据全球战略布局全面升级。发达国家期望通过建立大数据竞争优势,巩固和加强领先地位。美国作为大数据发展的策源地和创新的引领者,最早正式发布国家大数据战略。2012年3月美国发布《大数据研究和发展倡议》(Big Data Research and Development Initiative),将大数据作为国家重要的战略资源进行管理和应用。继美国之后,全球各国家、组织都纷纷在大数据战略推进方面积极行动,各国的大数据发展战略形成以下特点:一是政府全力推动,同时引导市场力量共同推进大数据发展;二是推动大数据在政用、商用和民用领域的全产业链覆盖;三是重视数据资源的开放和管理的同时,全力抓好数据安全问题。
中国加快构建大数据战略体系。中国敏锐地把握了大数据的兴起及发展趋势。在短短几年内,大数据迅速成为我国社会各领域关注的热点。为促进大数据发展,加快建设数据强国,中国政府制定了一系列发展大数据的战略性政策。2015年8月国务院发布《促进大数据发展行动纲要》,提出全面推进中国大数据发展和应用,加快建设数据强国;同年10月,中共中央十八届五中全会将“大数据”写入会议公报并升格为国家战略;2016年3月,国家在出台的“十三五”规划纲要中再次明确大数据作为基础性战略资源的重大价值,要加快推动相关研发、应用及治理。2017年1月,《大数据产业发展规划(2016—2020年)》正式发布,全面制定了“十三五”期间的大数据产业发展计划。
地区大数据发展格局初步形成。在《促进大数据发展行动纲要》发布之前,广东、上海、贵州等地率先启动了大数据地方政策的先行先试。而在《促进大数据发展行动纲要》发布后,各地政府加快跟进。截至2017年2月,全国31个省份均出台了大数据相关政策文件。经过不断的探索与实践,地区大数据发展的梯次格局初步显现。北京、广东、上海等东部沿海地区产业基础完善、人才优势明显,成为发展的核心地区;而地处西部欠发达地区的贵州、重庆等地区,通过战略创新形成先发优势,政府积极实施政策引导,引进大数据相关产业、资本与人才,也在区域竞争格局中占据一席之地。
(二)数据资源
数据总量爆炸式增长。根据国际数据公司(IDC)《数字宇宙报告》,2020年以前全球数据量将保持40%以上的指数增长速度,大约每两年翻一番。
数据成为核心生产资料。与农业时代的土地、资源、劳动力,工业时代的技术、资本不同的是,数据是人类自己创造的全新的生产资料。在互联网没有出现之前,数据就已经存在,但互联网的发展才使数据流动和利用变得更为容易。数据用于记录、反馈和提升互动体验,过往杂乱、无用、静态的数据因为流动而变得鲜活,数据拥有了生命,能够用于量化决策与预测。发掘数据价值的技术成本降低,数据可以用在全局流程及价值优化,并且实现真正的数据业务化,产生新的社会经济价值。
判断数据价值成为数据管理的核心能力。数据总量的爆炸性增长也给存储、分析和使用大数据带来挑战。据统计,当下世界各大公司存储的数据中充斥着半数以上的价值模糊的暗数据,在总体中的占比能够达到52%;此外还有大约33%的历史数据处在难以发掘的尴尬处境,或是失去了时效性,或是难以进行二次利用以及价值含量过低。因此,除数据总量构成的挑战以外,大数据自身所包含的模糊性、时效性以及冗杂性,都对海量数据的价值挖掘能力提出了更高的诉求。因此,迫切需要开发者与决策者加快对大数据处理技术和分析能力的研究进程。
(三)数据流动
跨境数据流推动全球化进入新阶段。麦肯锡全球研究院(MGI)发布《数字全球化:新时代的全球性流动》(Digital Globalization:The New Era of Global FIows)报告提出,“2008年以来,在全球商品流动趋缓、跨境资本流动出现下滑的趋势下,全球化并没有因此而逆转或停滞。相反,因为跨境数据流的飙升,全球化进入了全新的发展阶段”。
数据开放建设取得初步成效。在2014年由澳大利亚Lateral Economics 所发布的Open for Business : How Open Data Can Help Achieve G20 Growth Target报告中就明确指出,开放数据将能够帮助G20国家在5年内实现1.1%的GDP增长,而单这一项带来的增长就已占到了G20国家5年GDP 增长总目标的50%。
面对开放数据所能带来的巨大潜能,中国也正推动全国范围的数据开放。构建交易平台成为促进数据流通主要举措。数据交易平台是数据交易行为的重要载体,可以促进数据资源整合、规范交易行为、降低交易成本、增强数据流动性。2015年前成立并投入运营的有北京大数据交易服务平台、贵阳大数据交易所、长江大数据交易所、东湖大数据交易平台、西咸新区大数据交易所和河北大数据交易中心。2016年新建设的有哈尔滨数据交易中心、江苏大数据交易中心、上海大数据交易中心以及浙江大数据交易中心。据贵阳大数据交易所发布的《2016年中国大数据交易白皮书》显示,中国的大数据交易市场在2015年的规模为33.85亿元,预计到2020年或将提升至545亿元。 (四)数据产业
大数据产业核心层将保持每年40%的增长速度。目前大数据产业的统计口径尚未建立,对于中国大数据产业的规模,各个研究机构均采取间接方法估算。通常认为,大数据产业核心层主要是指围绕大数据采集、存储、管理和挖掘等环节所形成的产业链条。中国大数据行业仍处于快速发展期,36氪研究院認为2018年中国大数据产业规模将超过500亿元,复合增长率为47.0%,是全球复合增长率的2.2倍。据中国信通院(CAICT)数据显示,2017—2018 年大数据核心产业还有着40%左右的高增长空间。
大数据产业规模2020年要突破1万亿元。广义大数据产业已超出了信息产业的范畴,其广义范围涵盖到关联层与衍生层各大领域的应用。2017年1月发布的《大数据产业发展规划(2016—2020年)》中所使用的大数据产业范围,其定义首先包含了围绕数据的采集、存储、加工等一系列经济现象,同时还涉及数据资源本身和相关硬件的产销环节,此外信息技术服务也可以归纳在内。《规划》提出,到2020年大数据产业要突破1万亿的规模,年均复合增长率要大致达到30%[7-13]。
参考文献
[1]国务院.促进大数据发展行动纲要[EB/OL]. http:∥www.gov.cn.
[2]大数据战略重点实验室.块数据2.0:大数据时代的范式革命[M].北京:中信出版社,2016.
[3]城田真琴.大数据的冲击[M].周自恒,译. 北京:人民邮电出版社,2013.
[4]维克托·迈尔-舍恩伯格,肯尼思·库克耶.大数据时代[M].盛杨燕,周涛,译.杭州:浙江人民出版社,2013.
[5]李国杰,程学旗.大数据的研究现状与科学思考[J].战略与决策研究,2012(6):647-657.
[6]倪光南.大数据的发展及应用[J].信息技术与标准化,2013(9):6-9.
[7]工业和信息化部.大数据产业发展规划(2016—2020年)[EB/OL]. http:∥www.miit.gov.cn.
[8]Franks B.驾驭大数据[M].黄海,车皓阳,王悦,等译.北京:人民邮电出版社,2013.
[9]涂子沛.大数据:正在到来的数据革命[M].桂林:广西师范大学出版社,2012.
[10]涂子沛.数据之巅:大数据革命,历史、现实与未来[M].北京:中信出版社,2014.
[11]艾伯特-拉斯洛·巴拉巴西.爆发:大数据时代预见未来的新思维[M].马慧,译.北京:中国人民大学出版社,2012.
[12]大数据战略重点实验室.块数据:大数据时代真正到来的标志[M].北京:中信出版社,2015.
[13]中国信息通信研究院.大数据白皮书(2016)[EB/OL]. http:∥www.catr.cn.