大数据的财富与陷阱

来源 :自然与科技 | 被引量 : 0次 | 上传用户：aijieyeyi559

【摘要】

：

【作者】

：

顾秋凡

【出处】

：

自然与科技

【发表日期】

：

2014年1期

【关键词】

：

陷阱财富恐怖分子生产因素海量数据消费者生产率天安门

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　2013年10月28日，三名新疆籍恐怖分子驾吉普车冲撞天安门，恐怖分子当场全部烧死，可是警方仅用了10多个小时就全部抓住了5名同伙。警方如何快速锁定嫌疑犯，这是国家秘密，但是从媒体披露的蛛丝马迹中，我们还是能发现无处不在的监控视频和电信追踪起到了至关重要的作用。从天安门广场追溯过去的海量信息，通过一些模糊匹配方法能快速地过滤信息，最后找出恐怖活动与嫌疑犯的相关性——这就是大数据的威力。
　　没有最大，只有更大
　　维基百科这样定义大数据（Big data）：大数据或巨量数据、海量数据、大资料，指的是所涉及的数据量规模巨大，以至于无法在合理时间内通过人工截取、管理、处理并整理成为人类所能解读的信息。我们举个例子，IBM团队为了让电脑战胜国际象棋冠军卡斯帕罗夫，收集了将近100年来的60万盘高手的棋谱，这个就是大数据，人脑是无法记忆所有这些棋谱并加以有效利用的。1997年，国际象棋特级大师卡斯帕罗夫在《危险边缘》（jeopardy）节目中首次输给了IBM深蓝电脑，成为轰动一时的新闻。电脑能战胜人脑，秘诀就在于存储在深蓝电脑内的棋谱大数据。科学家们研制了人工智能博弈软件，能从大量的棋谱中找出最合适的步骤，这是人脑所无法企及的。
　　有人把大数据的特征归纳为4V：Volume（量大）、Variety（多样）、Velocity（高速）、Value（价值密度低）。让我们来回顾一下刚刚过去的“双十一”节，那天淘宝商城达成了1.88亿笔交易，总交易额达创纪录的350.19亿元。这些交易记录就形成了那天疯狂网购的大数据。
　　这样的记录首先体现在数据量巨大上。我们知道一部高清电影的容量大约有1GB，而1024个GB就是一个TB，再1024个TB就是一个PB，而大数据往往达到PB数量级，可见数据量大得无法想象。其次，就是数据的多样性，交易的品种、卖家的信息、买家的信息、快递的信息、支付的信息，构成了一个行业多样化的数据链。第三，就是数据产生的速度极快，检索结果的速度也要求快，要在几百万件商品中查找出一类商品，其检索速度只需要1秒，这是传统技术无法达到的。最后，需要说明的是，大数据的内容虽然真实、完整地反映了客观世界，但它的价值密度很低，如果不去研究挖掘，大数据是不会自动产生有用结果的。比如，在街景的海量监控视频中，犯罪分子留下的踪影也许只有几秒钟。
　　大数据时代
　　英国的大数据权威专家维克托·迈尔-舍恩伯格（Viktor Mayer-Sch?nberger）写过一本书，书名就叫《大数据时代》，书中首次断言人类已经无可逆转地跨入了大数据时代。据他估算，人类在2000年时大约只有四分之一的信息实现了数字化，其他的四分之三的信息仍然以报纸、书籍、胶片、磁带等形式存在，但是到了2007年人类存储的数据超过了300艾字节，相当于3000亿GB的信息量。大数据时代在生活、工作和思维上给人们带来了巨大变革。
　　首先，是数据的形式由原来的关系型数据（如电子表格形式）更多地表现为非关系型数据（如用户评论、图片等）；数据存储方式也由原来集中式存储变为分布式存储，大型数据不得不存储在不同地方的存储服务器中，通过网络进行互联访问，构成所谓的云存储。
　　其次，是对数据处理的方式发生了根本变化，人们已无法只用一台电脑处理数据，必须依赖网络后面的云平台，进行云计算，才能有效处理大数据。在对大数据处理上，我们可以看到三个有趣的变化：在小数据时代，人们限于获取数据的困难，只能采用随机抽样的方式获取数据样本，然后根据样本数据进行分析预测。一旦样本出现偏差，那推导出的结果就会产生很大的误差。而在大数据时代，我们能轻易地得到数据全体，而不再需要样本。譬如，阿里巴巴能得到所有买家的数据，它能轻易地统计“光棍节”那天的交易金额，算出哪个地区交易最活跃，可以通过媒体实时转播交易盛况。这就是大数据的全数据模式，数据处理的范围是全体，而不再是样本。第二个变化，是不再一味地追求数据的精确性。由于大数据的多样性、丰富性、动态性（在处理的同时，数据还在大量产生），强调数据的精确性是做不到的，也没有必要。纷繁的数据会混杂在一起，看起来好像全无用处，甚至有些还是错误的数据，但是没有关系，这就是大数据的本性，看似无关无用的一堆数据却蕴含着无限商机。想一想，当人们在百度上比以往更多地搜索“感冒”“发热”等关键字时，往往意味着某地将要爆发流感，甚至还能预测是什么流感，这就是大数据的威力。第三个变化，是关注数据之间的相关性，而不是因果关系。比方说，通过挖掘天猫商城的交易数据，发现购买德龙咖啡机的买家，会有很高的比例购买宠物粮食，那商家会不失时机地推荐你购买皇家狗粮。咖啡机与狗粮没有因果关系，但却有内在的相关性。数据之间的相关性，就是大数据所蕴含的价值，也是商家追求的商机。大数据的相关性，告诉我们在面对错综繁杂的大数据时，我们不需要去研究“为什么”，只要知道“是什么”就足够了。
　　最后，大数据时代将催生一个数据挖掘行业，出现一批数字科学家。简单地说，数据挖掘就是从收集的数据中用一定的算法分析计算，得到我们所需要信息和知识的过程。传统的统计分析是将数据按已知的类别进行分类统计，然后寻找有价值的数据。如果给定的分类是不合理的或是错误的，那统计出来的结果就不会产生最好的效果。而数据挖掘采用的是一种叫“聚类”的方法，它事先不需要人工分类，而是由算法分析数据的属性，将数据自动聚集成“类”，使“类”间的相似性尽量小，“类”内的相似性尽量大。比方说，保险业务涵盖各类人群、各种职业，所以设计某个险种潜在的客户目标群，需要对大量数据进行挖掘，才能找出不同的客户群和重要系数，这不是事先人为设定的。要“让数据自己说话”，这样才能因地制宜地制订营销计划，科学测算盈亏平衡，为保险企业创造更多利润。
　　大数据的红利
　　有人断言，数据将成为人类的重要资产，成为比石油和黄金更为重要的可重复开发使用的资源。笔者也认同这个观点。最近，媒体报道“三马”联手买保险新闻，这是一个攒取大数据红利的例子。“三马”利用阿里巴巴、腾讯和平安保险三家公司掌握大数据的优势，成立了网络保险公司——众安在线，这是具里程碑的互联网金融创新，旨在利用大数据对保险消费者进行准确定位和精准营销，瞄准的主要是80后、90后的消费者。可见，利用大数据技术将是未来各保险公司抢夺市场非常关键的一环。　　另一个有益的应用将是利用大数据来防范电信诈骗。电信诈骗是当今社会的一大顽疾，如果电信、银行、互联网、公安等各方摈弃利益纠结，共享各自的大数据，那么最大限度地杜绝电信诈骗是完全可能的。我们只要分析挖掘各方的大数据，找出电信诈骗相关性的数据因数，然后建立动态监控模型，那么一旦相关数据出现，公安就能根据数据链快速找到诈骗犯。
　　炒股的高手都想赚取大数据概念股的红利。大数据的红利在哪里？存在于大数据的拥有者、大数据技术公司和大数据价值挖掘者（也就是提供思维的数据科学家）。马云说过：未来的世界是数据的世界。大数据时代已经撼动了世界的方方面面，从工业、农业、商业、科技到政府、医疗、教育、文化以及社会的其他各个领域，人们的生活日益被数据所改变。可以说，大数据是一种比石油、黄金还要珍贵的资源，谁掌握了足够多的数据，谁就抢占了制高点，增强了竞争力，也就掌握了未来。
　　大数据的负面清单
　　大数据无疑是一个资源宝库，它蕴藏着巨大的价值，有待人们去挖掘。但是，就像硬币有两面一样，大数据也有其负面清单，我把它归结为数据垄断、侵犯隐私和数据误导三个主要方面。
　　数据垄断是大数据的最大隐患。我们知道，大数据技术使得人类的态度、情绪、行为等以往认为难以测量的方面，都可以变为数据来进行分析和预测。一旦大数据掌握在少数企业或政府部门之间，他们为了维护自己的利益而拒绝信息流动，这不仅浪费了数据资源，而且会阻碍数据创新，形成数据垄断。比方说，全国的房产数据如果能共享，这对国家了解房产的整体、真实情况非常有益，也能轻易挖出贪污腐败的嫌疑分子，但是这些数据往往掌握在地方部门之间，不能形成有效共享。
　　侵犯隐私是大数据的影子，只有将大数据置于法律的阳光下才能驱除。被斯诺登揭露的美国“棱镜计划”，就是利用访问大数据的能力，监控互联网、电信等九大营运商的数据库，从中挖掘“有用信息”，达到收集情报、秘密监控的目的。电话、电邮、文档、视频、照片、聊天记录等几乎所有的信息都暴露在“棱镜”之下，大数据为侵犯隐私开了方便之门。如果不对大数据的获取、访问、共享加以法律约束，那么个人隐私将不复存在。美国最近有一款照片分享软件（Snapchat）应用很火，因为它能满足年轻人保护隐私的需要。在Snapchat中如果你分享一张照片给你的朋友，它将在对方阅读后马上自动删除，同时禁止在阅读时屏幕截图，具有“阅后即焚”的功效。因此，Snapchat也适合于发送商业机密或者敏感信息，焚毁后的照片不会在网上留下痕迹。这是人们反抗大数据的一个案例。但是在日常生活中，人们无法避开使用电信、互联网、微博、微信、QQ等服务，透过这些服务所记录的大数据，几乎透明无遗地显露了一个人的社交关系网。
　　数据误导是大数据风险的一个侧面，如果不对数据挖掘的结果加以评估验证，那利用大数据可能带来错误结果。虽然大数据容忍有数据差错，但如何有人主动地弄“脏”数据，整个大数据就会被人为扭曲，加进了虚假信息。比如，我们在上淘宝网时，总是非常关注卖家的信用等级，但是总有一些卖家弄虚作假，通过自卖自买等虚构交易，来“攒评分”“刷信用”，有的卖家甚至雇人来“刷钻冲冠”。如果一个皇冠卖家的信用是靠“脏数据”获取的，那买家的上当受骗就是大概率事件。
　　大数据的红利目前只能被有权有势的大企业或政府部门瓜分，这对整个社会的健康、和谐发展是不利的。我们呼吁尽快立法，建立大数据共享平台，打破数据垄断，消除数据鸿沟，保护个人隐私，让大数据成为新经济最重要的生产要素，让普通人也能分享大数据的红利。

其他文献

坚持教学中心地位提高人才培养质量

坚持教学工作中心地位,是高等职业教育完成人才培养任务的根本要求,也是提高人才培养质量的关键。结合管理服务类职业院校的创新与实践,通过凝聚共识,加强建设,深化改革,开拓

期刊

高职教育教学工作改革创新人才培养提高质量Vocational Education Teaching Working Reforming and

对科学地评价学生的几种探索

【正】近两年来我们在学生评价的实践方面进行了初步的探索。有以下几种体会。一、把教育(评价)目标的制定作为首要任务。现代教育评价思想认为,目标的制定是必不可少,带有

期刊

教育目标教师语文考试了解学生教育评价思想思想品德学生能力教学内容自我评价中心思想

名人名作之网络版

陋网铭(刘禹锡《陋室铭》)网站不大,概念先行。人气不旺,广告则灵。斯是陋网,烧钱即名。上拿死大颗,向股民取金。谈笑有网络,牛皮皆精英。可以引疯投,骗人心。无故习之约束,

期刊

互联网大社区网民网站名满江红网络版电脑技术重点建设出师表刘禹锡

高精度磨削加工用声发射对刀仪的研制

将声发射（ＡＥ）技术应用于砂轮与工件对刀状态的检测上，分析了声发射信号检测砂轮与工件的接触状态的机理，在实验的基础上研究了砂轮与工件不同接触状态时ＡＥ信号的幅度变化状况，并利用ＦＦＴ频

期刊

磨削声发射检测对刀仪精度砂轮工件grinding acoustic emission detecting aligning instrument

聚乙烯预辐射接枝丙烯酸研究

采用预辐射法研究了丙烯酸对聚乙烯膜的接枝反应。结果表明,在真空环境下添加阻聚刑铁盐可使接枝反应顺利进行,加入无机酸可促进接枝反应。还研究了单体浓度、辐照剂量和贮存

期刊

聚乙烯预辐射接枝丙烯酸polyethylene pre-irradiation grafting acrylic acid

高职学生生涯决定与心理焦虑问题的研究

基于对生涯决定与心理焦虑问题的关联度和相互影响作用，研究提升高职生生涯决定能力的具体措施，让焦虑止于行动，给自我“松绑”，理性行动，在行动中不断调整目标，正视问题，井然有序地

期刊

生涯决定心理焦虑问题行动促进高职生心理健康Anxiety Psychological Health Career Determination

模拟数字混合电路故障诊断的验证方法

本文提出一种适于模拟数字混合电路故障诊断的验证方法,该方法对模拟元件和数字元件的故障特征均用故障补偿源表示;在求解诊断方程过程中,当数字元件状态预估值与实际值不相

期刊

集成电路故障诊断补偿源analog-digital hybrid fault compensation source fault diagnosis

参数变化对异步机解耦控制的影响

异步电机是一个高阶、非线性、强耦合的多变量系统，矢量变换控制能使其解耦．本文分析了矢量控制系统正确解耦的充要条件，即磁链定位偏差角δ＝０°；提出了直接观测解耦充要条件的

期刊

矢量控制解耦异步电机交流调速性能vector control decoupling control flux orientation angle d

以人为本构建社会主义核心价值体系

社会主义核心价值是我国建设社会主义的最根本的目标、原则和要求。其体系的确立将引领正确的社会发展方向，有效防止各种极端思潮的出现，使社会意识形态较为稳定、主流价值能够

期刊

以人为本社会主义价值体系Man - Oriented Socialism Value System

论天然美与人工美的同一性

【正】一通常,国内流行的一些美学原理教科书对审美对象或审美客体的划分,采取这样两种做法。或者将其划分为自然美、社会美、艺术美三种类型,或者将其划分为现实美和艺术美

期刊

审美客体艺术美自然美审美符号三种类型社会美美学原理现实美审美活动三分法

大数据的财富与陷阱

与本文相关的学术论文