大数据的创意与创新

来源 :数码设计TED | 被引量 : 0次 | 上传用户:QHP925
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  大数据是指那些太大、太复杂、过于动态的数据,一般的工具难以储存,难以分析和管理。掌握大数据,可以预见趋势,提供更好的服务与产品。
  大数据带来的兴奋与期待
  一些怪诞有趣的问题吊起了MIT媒体实验室研究员们的胃口,有些问题与我们个人的生活息息相关:
  宠物般可爱的婴儿,是如何逐渐获得了语言与交流能力?
  如何通过“可穿戴计算”更好地了解自己的健康、睡眠与情绪?
  银行掌握着我们的消费行为,手机运营商了解我们的移动位置信息、通信模式,甚至了解我们真实世界中的社交网络,他们如何能提供有价值的个性化服务?我们作为力量相对薄弱的个体,该如何面对个人数据的隐私与安全?
  有些问题在深究企业的市场、运行与效率:
  如果一家企业在春晚或者中国好声音节目中播放了自己的广告,如何通过社交媒体数据精确测量广告的覆盖人群面积以及受众的反馈?
  企业内的有效的信息共享与知识传播是如何增强员工工作效率并转化为实际收益的?
  如何衡量企业的“软性资产”,也就是领导与下属之间,同事与同事之间的交流、沟通与默契?这些软资产又如何影像个人的工作表现和团队的整体竞争力?
  有些问题则着眼于一个城市甚至是一个国家的宏观整体:
  哪里是一个城市感觉最浪漫的地方?
  如何利用移动通信数据做更智能的城市交通规划以减少拥堵?
  一个国家的经济与国家收入与其生产产品的种类与多样性有何联系?
  这些形形色色的问题涵盖了我们工作生活的方方面面。而研究员们的解决方案是类似的:新颖的研究方案设计,尤其是多数据源的确定。如果没有现成的数据源,则需要设计新的硬件器材与传感器进行采集与存储。然后对大量数据进行统计分析或者机器学习得到研究结论。在数据分析处理过程中时常会有新的疑问与灵感出现,再进一步扩大研究的范围与成果。MIT媒体实验室的研究院们获得了很多有趣的,时常与我们直觉并不相符的成果。在研究过程中积累的技术与智慧已经缔造了许多家成功的创业公司。
  大数据之所以令人充满期待,绝不仅仅是因为我们有机会创造一些软硬件去采集、存储和访问海量的数据,我们更着迷于这些数据本身带给我们的信息与智慧,为我们提供一个全新的理解世界和理解人类自己的方法与视角,去回答一些传统研究方法无法回答的问题。我们常讲用“事实”战胜雄辩,或用“实践”去检验真理,那么“事实”与“实践”本身即可通过大数据分析获得更严格的界定与支持。
  大数据到底大在哪?有多大?
  讨论大数据无疑是近期的一种流行时尚,无论是在学术界、企业界、政府、创业公司,或者是风险投资界,“大数据”三个字本身指征了新的价值创造、新的智能收集与新的商业机遇。
  “大”字首先让人们想到的是大数据4V中的第一“V”,即容量(Volume)。曾经习惯使用MB和GB的我们突然需要在脑中进行一些运算才能理解(PB)和(EB)的概念。“大”字也体现在大数据影像行业之多,应用领域之广,涵盖交通、金融、医疗、企业管理、用户服务等多领域。从技术或者工程的角度去看大数据,“大”也体现在其涉及交叉学科领域之多,从数据采集到最终从数据中挖掘出价值,每一个环节都有相应的技术难点与创新点。
  然而“大”数据正如我们这个信息爆炸的社会一样给人最深刻的感受却是困惑与无所适从。繁复的数据源,分散的价值创造机遇,具有挑战性的技术与非技术上的难题,要求每一位大数据参与者必须去消化大数据这个新兴生态系统带来的不确定性、模糊性甚至是风险。简单地讲,大数据技术分成“强健内核”与“创新外沿”两部分。“强健内核”指的是一个可靠、安全、可扩展的IT架构用于大数据的采集,存储,与高效处理;“创新外沿”则是解决如何用这些数据来为个人、企业、政府提供价值,甚至是意想不到的价值。
  MIT的计算机科学与人工智能实验室(CSAIL)在今年与八家企业联合建立了大数据研究组,通过学术界与工业界具体问题的结合来进一步推进大数据的研究。研究的角度主要侧重于四个研究主题:1)计算平台,2)可升级算法,3)机器学习与辨识,4)隐私与安全。应该说,这四个主题很好地概括了大数据从计算机科学角度出发的技术需求,为4V中的两个V,Volume(数据量)与Velociy(速度)提供了进一步的科研储备。市场上已有的产品化的解决方案也更多的是侧重于此,这是强健内核的部分,同时加入该研究组的还有金融、医疗、教育、交通各个学科的教授,从各个应用领域去挖掘大数据带来的机会,所谓的创新外沿。
  大数据的障碍与挑战绝不仅仅是更多更快的处理数据。远比数据体积与速度重要的是数据分析理念与应用的创新,即如何从纷繁的数据中理清变量之间的联系,发觉通常无法认识的规律,帮助我们更好的理解并改进系统设计。从这个意义上讲,大数据的参与者应先把“大”字忘掉,而更关注于“数据”本身。
  数据面包屑—寻找诚实的信号
  大数据首先对社会学、行为学、企业设计等领域的传统研究方法带来了冲击与革新。这些领域传统的研究方法主要依赖于访谈、问卷调查、民意测验等等。比如如果我们想了解一家企业内部员工之间的交流模式,我们会向所有员工发问卷询问他们与同事之间的交流频繁度,是否经常与其他部门的同事交流,是更多地用Email还是面对面的交流,谈话时的肢体语言等等,然后用收回的问卷数据进行分析。再比如一家饮料厂商在推出新的配方之前,往往会邀请一批测试用户试新的饮料,并记录他们的意见,根据他们反馈的满意度决定是否最终将新产品推向市场。
  然而研究人员发现这样获得的研究结果通常有很大的不确定性。从企业调查问卷中获得的结论对企业内部的交流协作并无明显的指导意义,而由测试用户一致称赞的饮料时常在市场上失败。原来,人们在需要回忆事实,并有意地发表意见的时候,往往带有模糊性与偏见性,发送的是“不诚实的信号”。正如《诚实的信号》一书作者,MIT媒体实验室Sandy Pentland教授曾提到过的,“数据的面包屑”—我们不经意间留下的数据痕迹,比如我们信用卡的账单,比如我们手机或蓝牙设备留下的位置信息与通信记录,才真正全面地反映了我们生活里的真实行动与选择。而我们刻意要表达的自己,比如通过问卷调查中的回复、甚至是社交平台上的评论、转发、喜爱或者不喜爱的投票,与我们真实的自己都存在一定程度的偏差。   Sandy Pentland教授一直是大数据领域创新的先驱者。Tim O’Reilly和福布斯称之为世界上七位最有影响力的数据科学家之一。他和他的研究组在大数据的多个应用领域均有涉猎,尤其是在企业管理上。他一直倡导利用企业内的大数据,或者收集新颖的,却时常被忽视的数据来协助企业内部的决策与流程设计。Pentland教授的团队曾开发了一种可佩戴的“徽章(Badge)”配发给企业的员工们使用。徽章里集成了许多种传感器来收集收据,比如用麦克风来收集员工说话时的音量与抑扬顿挫、用3D加速器来收集员工工作时的移动或者交流时的肢体语言、用红外装置来监测那些员工之间有面对面的交流。利用这些采集到的数据,配合着企业现有的其他数据集,比如员工的绩效数据、Email数据、电话记录等等,可以产生新的视角去理解企业内的动态,尤其是企业内部各员工之间,各部门之间的沟通与协作对每个个体的效率与企业整体竞争力所产生的影响。通过对声音和肢体动作的分析则可以帮助员工理解如何能更有效地在会议中表达自己的观点,或者如何更好地展示自己的领导力,避免冲突。
  在这样的分析框架下,我们并不需要员工去主动地、有意识地分享任何信息。通过各种传感器所捕捉到的这些“数据面包屑”更精确地记录了人们真实的习惯与工作状态。Sandy Pentland教授提出了“现实挖掘”的理念来概括对这种大数据的感知、收集与分析。同样的理念也贯穿于其他的一些项目中。
  在MIT的校园里,每天同学们的情绪都是怎么样的?兴奋的,平淡的,还是压抑的?MIT媒体实验室的Roz Picard教授和她的研究组并没有发调查问卷来询问同学,而是开发了“心情探测器”—在校园多个位置安装了摄像头,并利用视频情绪识别技术直接通过同学们的面部表情来统计他们校园生活中的喜怒哀乐。
  同样的思路也适用于我们人类认识自己。婴儿刚出生时只会做简单的声音与动作,难以与周围复杂的环境做任何交互,可随着婴儿渐渐长大,他们会奇幻般地掌握了语言能力并且可以理解周围的人与事并与之交流。这个有些不可思议的过程一直都是医学、生物学、教育学中有趣,却又没有完全解开的谜题。MIT媒体实验室的Deb Roy教授另辟蹊径,从数据的角度去探索这个课题。他在他家的一间卧房里安装了摄影头,麦克风等数据采集装置,对他初生的儿子在这个特殊房间里的一言一行记录了三年,近十万小时的多轨数据。他通过对视频以及声音海量数据的挖掘与处理来学习他的儿子是如何掌握语言能力并与人交流的。
  Y变量—精确地测量数据的价值
  分析大数据的工程师与科学家们时常遇到的一个挑战,就是如何为大数据的“投资回报”进行合理化的辩护。
  换而言之,如何证明对大数据的分析结果确实带来了经济上的实际效益?如果有,又该如何精确评估甚至量化这个回报?
  这是一个极为关键却又时常让人感觉无从着手的挑战。如前所述,大数据产业已经形成了一个庞大的生态系统,而这个系统存在的经济基础,就是大数据最终必须要为个人、企业、公关服务创造具体的实际价值。这个价值越有形,越能被衡量,大数据的价值意义就越深刻,越能被人接受。
  ·电子商务企业对用户的浏览行为进行挖掘,商家、银行或者支付系统的提供商对用户消费行为进行挖掘,提供更个性化的产品与服务,推荐更适合的商品。我们希望更直观地理解商家如何提高了自己的销量与附加增值服务,消费者从中获得的价值能否通过节省的时间、获得的折扣来衡量?
  ·对企界数据进行采集与挖掘,在内部可以发现企界管理运行中漏洞并加以改善,提供企业运行的效率与生产力,在外部可以优化市场营销、客户管理、物流管理等以增强企业竞争力。我们该如何量化这样的改善与优化?
  ·对更宏观的数据进行分析,比如手机数据、物流数据可以帮助一个地区进行城市设计与交通规划,甚至预防犯罪、反恐。我们如何测量大数据为公共服务领域创造的价值?
  其中一个有效的思路,是注意寻找或者添加数据集当中与价值直接相关的变量,比如销售额、员工工资与奖金,支出开销等直接以人民币、美元为单位的变量。将其作为数据挖掘或者回归分析中的“Y变量”,探究其他非与价值直接相关的“X变量”是如何影响和决定价值相关的“Y变量”的。比如说MIT数字商务研究中心的Marshall Van Alstyne教授曾经研究企业内部的有效信息分享与企业生产力的关系。他所使用的数据集是一家企业的全部电子邮件数据。通过这些电子邮件数据,我们可以挖掘到许多有意义的员工的工作与交流模式,比如重要的信息的出现更多是以自上而下还是自下而上的方向传播;员工在回信时有哪些习惯,是固定时间批量回信还是常开着邮箱立刻回信等等。这些发现对企业认识自身固然有很大的帮助,但是对于企业领导者来说其价值体现还是不够直观。于是Van Alstyne教授将员工在公司中的职位、销售业绩、奖金等绩效带入数据分析作为“Y变量”,这样所得到的分析结果对每个人就清晰多了:在企业内部交流中,每多获得一个单词的信息,意味着你在工作中可以多创造价值。
  游戏化与激励机制—更新颖的数据采集模式
  前文中举到的很多大数据应用的例子都不仅局限于现有的各种基础设施与架构下已经在收集和存储的数据。大数据一个有趣的挑战就是定义和收集新型“数据面包屑”上的创新:我们对什么样的问题给予热情?需要什么样的数据才能帮助我们回答这些问题?怎么样才能迅速准确地收集这样的数据?尤其是当我们需要“用户产生内容(Uer-Generated Contents)”的数据时,如何鼓励大众来准确及时地提供信息是一个很热门的话题。
  卡内基梅隆大学年仅32岁的Luis von AhN教授的近几年的研究项目取得了举世的关注。他创造了许多游戏化的机制,通过众包(Crowdsourcing)调动大众的智慧来完成似乎不可能完成的任务。在他创立的“ESP游戏”中,线上的两位玩家面对同一幅图片,在有限的时间内尽可能地用更多地词汇来描述这幅画,当两位玩家使用了相同的词的时候,会得到积分奖励。而他们为了描述这幅图画所提供的词汇则在不经意间成为了这幅图片非常准确的标签,或者叫“元数据”。Google收购了这项技术并曾经使用它为Google图片搜索提供更准确的标签改善搜索精度。在2007年von Ahn教授又发明了reCAPTCHA,他希望能够帮助将古老的纸装书籍进行数字化,尤其是那些因为纸张年久会变得模糊而无法辨认的部分。今天许多的网站在用户注册,或者用户改变参数设置时,用户需要辨识一些图片里出现的字母并正确输入才可以继续操作。reCAPTCHA将古籍中这些难以辨识的部分剪辑成图片处理之后使用在这些网站当中。可以想象,当足够的用户对这些难以辨识的文字进行“人工”识别并将结果返回reCAPTCHA时,reCAPTCHA有效地提高了这些古籍数字化的效率与精度。   当大数据的来源是用户的参与与输入时,如何将数据输入的过程包装成一个看似不直接相干的游戏或者其他环节,是很有趣的一个方向。醉翁之意不在酒,在用户获得放松与趣味性的同时,不经意间贡献了数据解决了问题。
  MIT媒体实验室Cesar Hidalgo教授的研究组想回答一组很简单却又与我们城市生活息息相关的问题。这个问题模版就是:在XXX这个城市里,哪里给人的感觉最XXX?比如说,在纽约,哪里给人的感觉最浪漫?Hidalgo教授和他的研究员们开发了一套游戏化的工具平台来解决这个问题:他们通过利用“Google街道景观(Street View)”的API,对一个城市几乎每一个角落都会抓取一张照片,或者每隔一段距离就抓取一张照片,这样一个城市就会自动生成一个照片集。每一位用户在参与这个游戏的时候每次都会看到两张照片,并选择:“哪一张照片里的场景看起来你觉得更不安全?”用户则可以很快地凭他们的个人感受进行选择。当足够多的用户参与这个游戏的时候,研究院们就收集到了大量的两两比较的数据,进而可以计算出所有这些城市的地点在人们心中关于安全性,或者“浪漫”程度的排序。
  个人数据是新型的资产—隐私与安全
  我们前文中提到的几乎所有大数据的应用例子,在展示了大数据本身的价值和潜力的同时,也不由得让我们皱起眉头,产生一些疑虑。因为这些数据的采集和应用严重涉及到了我们个人的隐私和安全。个人的移动信息、通讯信息、消费信息、医疗记录、信用记录、甚至是驾驶记录;在企业内的范畴里Email通信记录、绩效表现;甚至是社交媒体上留下的一句评论、上传的一张照片、电脑里安装删除了什么软件,这一切的一切都是大数据有可能去挖掘的对象。善意地利用这些数据可以更好地推进科学,为我们创造价值,而恶意地利用这些数据则有可能对个人,对家庭带来灾难性的后果。
  大数据在创造价值的同时,对公民权利、社会道德体系,国家立法也提出了刻不容缓的要求。正因为大数据难以估量的巨大潜在价值,我们的个人数据已经成为一种新的有价资产(Asset),政府或企业都像尽能地收集和利用这些数据。在这些数据 的触角正在伸向我们每个人和社会的时候,我们需要尽早从技术、道德、立法多个角度去思考这个问题并做好准备。
  Sandy Pentland教授在这个问题上做过很多前瞻性的思考与工作。他向世界经济论坛提出了“数据新协定(The new deal on data)”的主张。他认为,我们每个人对我们个人的数据具有无可置疑的“拥有权”与“处置权”。
  对个人数据的应用与分析以及产生了哪些相应的个性化服务必须用明确的语言向用户进行解释,用户有权选择不加入或者不接受这些服务。用户同时有权利要求拷贝、转移或者删除自己的数据,不被他用。任何大数据的参与者都需要遵守这些准则。他的这些早期主张获得了关注并几经讨论。今年,美国推出了《用户数据权利法案》(Consumer Data Bill of Rights),欧盟官员也宣称数据的权力是公民一项基础的权力。
  这种对用户数据隐私与安全的考虑也带来许多技术与模式上创新的机会。在技术上,比如如何在网上不无意识地泄漏个人身份,如何在数据分析时有效地加密敏感信息而不影像分析结果;在模式上,如何让愿意分享个人数据的人得到补偿,得到更多的有价值的服务,如何在政府,企业,与用户之间建立一个互信的机制,这些挑战其实都是很好的创新点。
  大数据的核心是人,大数据创造价值的根源是对我们人本身更深刻的了解。关于我们人自己,第一,不管我们如何刻意地掩饰自己,甚至伪装自己,我们不经意间的行为习惯留下的痕迹还是会“暴露”真实的自己;第二,我们每个人都深受环境以及周围的亲人朋友同事的影响,人们常说“每个人都是他周围人的平均数。”而大数据正是有力量来沿着我们留下的这些数字轧迹推测我们真实的自己,来寻找人与人、人与环境变量之间的联系,去更准确地了解我们。这种理解和体会可能超出了我们自己对自己的认知。
  然后数据也好,大数据也好,带来的智慧都是基于历史过去的事件,在未来这个很有基于数据而设计建立的社会里,我们要随时准备迎接可能给我们带来困扰,也有可能带来欣喜的黑天鹅。
  (本文转自《新知》试刊号)
其他文献
本技术规程叙述了水稻、小龙虾(克氏原螯虾)轮作的稻田选择条件、工程改造与建设、水稻栽培与管理、小龙虾繁养与管理、水稻收获、小龙虾苗和成品捕捞等关键技术要求,适用于
魔幻现实主义在表现形式上往往打破人鬼界限,变现实为神话、梦幻,吸收西方现代主义文学的各种手段等等,但魔幻现实主义之魔幻的根本,则在于作家以印第安人或非洲黑人的原始观念、
十九大报告提出了新时代党的建设总要求。连日来,我省党员干部结合自身工作,围绕报告中对党的政治建设、思想建设提出的要求展开讨论。$$“十九大报告强调,党的政治建设是党的根
报纸
顾黄初先生是中国现代语文教育史的辛勤开拓者之一。他发掘并整理了现代语文教育史料,建构了现代语文教育史体系,其现代语文教育史研究为当代语文教育改革提供了重要的历史视