数据科学家：21世纪最性感的职业

来源 :精品阅读 | 被引量 : 0次 | 上传用户：lgyangell

【摘要】

：

【作者】

：

Thomas H. Davenport D.J. Patil

【出处】

：

精品阅读

【发表日期】

：

2012年21期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　2006年Jonathan Goldman到商业社交网站LinkedIn工作，那时的LinkedIn还只是刚创业不久，网站注册人数不到8百万，但是很多成员会邀请自己的朋友和同学加入，因此注册人数迅速增加。但是用户要找到已经在网站注册的用户不太容易，比例达不到管理人员的期望值。很明显，有些社交体验缺失了。如同一位LinkedIn管理者说的，“这就好像，你到了会议接待处，结果发现一个人都不认识，你只好站到一边，一个人小酌 ——很可能你就早早地离开了。”
　　Goldman是斯坦福物理学博士毕业，他非常着迷于越来越多的用户关联和丰富的用户个人资料。这些原本只能带来一堆杂乱的数据和笨拙的分析，但是，当他开始探究用户之间的联系时，他开始看到新的可能。于是他开始组织他的理论，检验他的猜想，建立模型，预测用户愿意与谁建立联系。他感到，他正在开发的新功能，能带给用户价值。但是LinkedIn的工程师们当时忙于提升网站性能，没有理睬，有些同事则公开表示不看好Goldman的想法：为什么用户想要LinkedIn告诉他们该和哪些用户建立联系呢？网站已经有一个导入通讯录的功能，能导入用户的所有联系人。
　　幸运的是，公司的联合创世人兼当时的CEO Reid Hoffman根据自己在PayPal的经验，相信数据分析的强大力量，给予了Goldman高度的自主权。其中一项就是，Goldman可以绕开传统的产品发布流程，而以广告的形式把这个小模块发布在网站最受欢迎的页面上。
　　通过这个模块，Goldman开始了他的试验，用户可能认识一些人，比如和用户来自同一个学校或工作单位, 却还没有在网站上建立起这些关系，如果把这些名字告诉用户，他们会作何反应。他根据用户在网站上注册时填写的背景资料，找出了每个用户可能最想与之建立联系的三个用户，然后定制了一套广告。几天之内，很明显地，奇妙的事情发生了，这些广告的点击率前所未有的高。接下来，Goldman根据“闭环理论”改进了他的推荐方法，“闭环理论”指的是如果你同时认识张三和李四，那么张三和李四很可能也相互认识。同时，Goldman和他的团队让用户对每个推荐的操作可以一键搞定。
　　很快LinkedIn的高层开始认识到这是个很好的主意，并将其列为标准功能。从那时起，事情真的开始起飞了。“你可能认识的人（People You May Know）”广告获得了30%的点击率，比其他任何的站内推广广告点击率都要高，共计产生了数百万个新页面浏览。得益于这项新功能，LinkedIn的成长速度大幅提升。
　　新新职业
　　Goldman 是一个很好的例子来说明组织中的重要新成员——“数据科学家”。这是非常高阶的专业岗位，要有在数据海洋中寻宝的好奇心和相应训练。这个头衔存在有几年了，第一次出现是2008由 D.J. Patil（本文作者之一）和Jeff Hammerbacher提出的，他们后来分别成为了LinkedIn和Facebook的数据和分析团队的负责人。但现在已经有数千位数据科学家工作于创业公司和成熟的大型企业。他们在行业里的忽然走俏，反应了这样一个现状，企业需要处理的信息正以从未遇见过的规模和渠道涌现。如果你的机构存储了几个PB的数据，或者对于你的生意最重要的信息是表格式的，而不再是行列的数据，或者要回答你最大的问题需要各种分析手段的“混搭”，你赶上大数据时代了。
　　现阶段对于大数据的主要热情都集中在大数据的处理技术上，比如，使用最广泛的分布式文件处理系统Hadoop，和相关的开源工具、云计算、数据可视化技术。这些突破性技术都是非常重要的，重要程度就不亚于有能力与脑力运用好技术的人。对数据科学家的需求快速增加，已经超过了供给，事实上，人才缺乏开始严重制约某些行业。Greylock Partners是一家投资初创企业的风投公司，曾经投资过Facebook, LinkedIn, Palo Alto Networks和Workday，它非常担忧紧张人才储备，因而建立了自己的招聘团队，负责给自己投资的公司输送人才。招聘团队的负责人Dan Portillo说，“这些公司一旦有了数据，就需要有人管理数据，发现真知。”
　　他们是谁？
　　从大数据中获利需要雇佣稀缺的数据科学家，管理人员面临三大挑战：识别人才，吸引人才，善用人才。和其他职责明确的岗位相比，这三项任务都不那么直接明了。首先，目前没有高校项目培养相关人才，同时，数据科学家在组织中处于什么位置，如何让他们创造最大价值，如何衡量他们的作用，这些都没有公认的标准。
　　因此，要想挖掘出数据科学家，首先要明白他们在业务中能干什么，其次，他们需要哪些技能？哪些现有的领域会用到这些技能？
　　数据科学家首要任务是在数据的海洋中探索发现，他们更喜欢用这种方式看待周围的世界。他们要在数字王国里游刃有余，把大量散乱的数据变成结构化的可供分析的数据，还要找出丰富的数据源，整合其他可能不完整的数据源，并清理成结果数据集。新的竞争环境中，挑战不断地变化，新数据不断地流入，数据科学家需要帮助决策者穿梭于各种分析，从临时数据分析到持续的数据交互分析。
　　数据科学家会遇到技术的局限性，但不会让技术阻扰他们寻找新颖的解决方案。当他们有所发现，便交流他们的发现，建议新的业务方向。通常他们很有创造力的展示视觉化的信息，也让找到的模式清晰而有说服力。他们会把蕴含在数据中的规律建议给产品经理和主管们，从而影响产品、流程和决策。
　　由于这种行当还处于初级阶段，数据科学家常常会推广他们自己开发的工具，甚至进行学术研究。雅虎之前雇佣的一批数据科学家开发出了Hadoop。Facebook的数据团队开发了在Hadoop上编程的Hive语言。很多其他的数据科学家都丰富或者优化了这套工具，尤其是数据驱动的公司，比如谷歌、亚马逊、微软、沃尔玛、eBay、LinkedIn和twitter。
　　什么样的人有能力做这些呢？什么技能让数据科学家成功呢？你可以把他们看成是数据骇客，分析师，沟通高手，值得信任的咨询师，这些东西组合到一起极具威力，也极其少见。
　　数据科学家最基本最通用的技能是写代码。也许五年后不太会这样了，那时很多人都会在他们的名片上印着“数据科学家”。一个更保值的技能是用所有相关方面都能听得懂语言进行沟通，另一个是用数据讲故事的特殊能力，通过口头表达或者视觉效果，或者两者都有。
　　但我们觉得，数据科学家占支配地位的品质应该是强烈的好奇心，想要深入问题内部的渴望，找到最核心的问题，提取成清晰的结论，并要经得起检验。比如，我们所知道的一位数据科学家，他研究的是欺诈问题，但他发现这个问题和DNA排序问题非常类似，在融合了两个完全不相干的世界之后，他和他的团队找到了一种能大幅降低欺诈损失的解决方案。
　　现在你大概清楚了为什么这个新兴的角色会被称为“科学家”。比如实验物理学家，同样也需要设计仪器，收集数据，反复试验，并最终展示结果。因此，很多公司寻找能处理复杂数据的人才，可很多招到的不错的人才都是有物理或社会科学领域的学习和工作背景。有些最好的最有前途的数据科学家是研究复杂科学的博士生，比如生态学或者系统生物学。George是硅谷Intuit公司的数据科学团队的负责人，本身是天文学博士毕业。更普遍的是，当今业界许多数据科学家毕业于计算机科学、数学、经济学和任何数据及计算密集型的领域。

其他文献

艺术家也是科技控

今年7月，哈尔滨“远大奇幻艺术节”展出的世界名画并不是真迹，但却充满吸引力，感谢科技，把达·芬奇、梵高、毕加索、夏加尔、马奈、列宾和米勒的名作变成“能说会动”的艺术品。与此同时，在伦敦国家美术馆举办的“变形记：提香2012”艺术展上，古典油画也借科技重新演绎，提香笔下的狩猎女神狄安娜，在艺术家康拉德·肖克罗斯的妙手中变成了机器人。　　在对科技手段的学习和运用上，先锋作曲家约翰·凯奇、视频艺术家白南

期刊

克里斯汀·贝尔：让快乐随风荡漾

8:47分，一个“六月阴霾”的烦恼周一清晨，我站在洛杉矶格利菲斯公园门口的灰熊雕像边上，开始想克里斯汀·贝尔（Kristen Bell）是不是把我放了鸽子。她迟到20分钟了，可既没打我电话，也没发来信息或邮件。也许是我弄错了见面地方，或是记错了时间，也许是我该去找她，别忘了她可是好莱坞数一数二的金发美女——半小时一集的喜剧片《谎言堂》中的明星，“露得清”广告的当下代言人，《忘掉莎拉·马歇尔》中的女

期刊

难以复制的票房喜剧，比比皆是的戏剧忧伤

戏剧演出宣传中常出现“一票难求”的说法，作为“一票难求”的姐妹词，“座无虚席”、“掌声雷动”也是衬托一部戏剧作品“火爆”的标配。但懂行的人都知道，坐在剧院里的人有多少是拿着赠票进来的，又有多少人是被拉进来填满座位以避免场面尴尬的。但现在，话剧《喜剧的忧伤》把一部真正受欢迎的作品所能享受到的追捧都体验了个遍：开售两小时一万几千张票全部售罄；随后，280元的票炒卖到600元，而680元则最高卖出了离谱

期刊

你适合哪种投资

你适合投资股票或者外汇产品吗？　　假定将100万日元（约合人民币8万元）存到银行，按照现在一年期定期存款0.3%的利率计算的话，所得的利息也就够几次在ATM存取或柜台转账汇款的手续费。于是，就有很多人想尽量将手头资金运用到有利的地方，其中的一个方向就是投资股票或外汇，但是如果你压根就不懂这种投资的话，不要说挣大钱，估计本金也会折进去不少。　　别看现在有些投资家是股票和外汇方面的常胜将军，但这些人在

期刊

唱唱歌，跳跳舞

唱唱歌，跳跳舞　　2012年10月23日，美国纽约，联合国秘书长潘基文在联合国总部会见大热神曲《江南style》的演唱者、韩国歌手“鸟叔”PSY，并一起大跳“骑马舞”。

期刊

德意志爵士品质

德国的爵士厂牌，与美国的非常不一样。　　比如ECM。有一段时间，我把它误会为挪威的厂牌，因为从它出品的大量唱片里，漂流出欧洲北方逼近极地的气候，寒气袭人，清冷洁净孤旷。有一句话说得绝，说“这是仅次于寂静的最美丽的声音”，这句话成了ECM的标签。　　Enja（恩亚）是另一个德国爵士名厂，它没那么冷，却有着与ECM同质的、与美国爵士厂牌决然分离的气质。与ECM一样，它创建于慕尼黑。　　马提亚·温克曼（

期刊

遇见真实的李娜

一　　李娜说过不喜欢说出自己的感受，就算是对最亲的人也一样，姜山是她丈夫，最亲密最信赖的人，但因为很长时间是她的教练，在工作中两个人会形成一个模式：“每次我说什么他马上给我反驳过来，导致后来我会想到，如果我跟他说这些话，他会怎么反驳，因为我又说不过他，所以到后来我就，那就干脆不说了。”她的方式是在场上，姜山不能说话的时候，她会吼回去。　　两人之间会“像螺丝一样一圈圈拧上去”。　　我说：“他可能想用

期刊

雪茄王国的朗读者

春季里一个阳光明媚的早晨，13岁的桑托斯·多明戈忐忑不安地走进圣胡安马丁内斯镇一家雪茄作坊，开始朗读雨果的《悲惨世界》。他的声音洪亮清脆，仿佛海上一阵湿润的风吹进阴暗闷热的作坊。工人们都抬起头凝视着他，满怀期待。　　这是他65年雪茄工厂朗读者生涯的第一天，对于这一天，88岁的桑托斯·多明戈至今仍历历在目，尽管他已经失去了大部分的记忆。　　自1865年以来，像桑托斯·多明戈这样的朗读者，每日走进古巴

期刊

30岁种棵摇钱树 60岁养老不求人

明天我们如何养老？这是我们每个人都必须面对的问题。古话说，老吾老以及人之老，可以说，无论什么年代，养老都是人人关注的话题。今天，当中国经济总量位居世界第二的时候，养老难题仍然困扰着许多人。那么，在当下经济社会的急剧变革中，怎么能拥有一个幸福祥和的晚年？中国青年出版社的一本新书——《30岁种棵摇钱树，60岁养老不求人》应该可以给您一点启发。　　当今的日本，人口减少、经济衰退伴随着政局不稳，退休年龄已

期刊

寻找你的伊丽莎白镇

人们需要旅行，往往有两个原因：希望有个人在远方等着你，或是身边有个人可以陪你一起上路。关于这句话，最好的阐述是一部电影《伊丽莎白镇》。然而颠覆这句话的，似乎也是这部电影。　　一个原本站在事业巅峰的运动鞋设计师德鲁，却遭受了人生最大的“滑铁卢”，就在他绑好刀决定自杀时，电话响了，他的父亲在家乡突然逝世，做为长子，他必须接回父亲的遗骨。　　那个陌生的父亲的故乡，就是伊丽莎白小镇。　　原来在许多年前，德

期刊

数据科学家：21世纪最性感的职业

与本文相关的学术论文