信息极客的三个功夫

来源 :瞭望东方周刊 | 被引量 : 0次 | 上传用户:yinmeng6112501
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  事实证明使用搜索引擎还是需要点见识的。人工智能专家吴恩达不久前接受美国《华尔街日报》采访,提到有百度用户是这么进行语音搜索的:
  在中国,有一些用户还显得不太成熟,所以你会得到你在美国不会得到的查询。例如,“嘿,百度,你好吗?上周我在街头一家小店吃了面条,味道非常好。你认为这个周末他们还会营业吗?”
  你得知道搜索是跟机器而不是跟人打交道。搜索引擎只知道网上已有的信息,而且你要输入的是关键词,而不是一句完整的话。当然,选择关键词也有技巧,比如你想找个色情网站,你最好不要直接输入“色情”——那样的话你找到的更可能是一些有关反色情的页面。
  但搜索只是个简单功夫。内事不决问百度,外事不决问谷歌,高级问题直接去知乎和维基百科,这些一般人都会。我儿子才5岁根本不会打字,但是他能在YouTube使用语音搜索到任何想看的动画片,他知道应该只说片名而不是说“你好吗”。
  能用非直觉思维跟机器打交道,这有点极客的意思。不过一个真正的极客也许并不满足于解决自己的信息需求,他可能还想为社会创造点价值,甚至想要用信息去左右公共政策,那么他就得会三个更高级的功夫。
  功夫一:阅读学术论文
  论文是知识的最前沿,而且是用最有条理的方式整理好的文本,一个真正的极客怎么可能不看论文呢?现在搞研究的人实在太多,从上天入地到娱乐管理,所有领域都有论文。很多社会科学甚至医学方面的论文,只要有最基本的统计知识就能看懂,实在看不懂技术细节看看摘要也不错。
  假设你想问一个生活中的问题,比如“读个商科的学位是否有利于找到工作”。问家人朋友,上论坛问网友,乃至直接搜索答案,最后得到的都可能是一些道听途说的事例和极其个人化的见解。想获得经过统计检验的、具有普遍意义的过硬答案,最好的办法是看论文。
  美国奥本大学经济系的一个研究发现,哪怕你想找的是商业工作,商科学位也没啥用。这项研究随机生成了9000份简历,投给银行、金融、管理、市场、保险和销售机构,简历中的学位包括会计、经济、金融、管理、市场这些商业相关学科,和生物、英语、历史、心理学这些非商业学科。结果发现商科的学位并不能增加获得面试的机会。有过实习经历倒是可以把面试机会增加14%。所以最佳策略是读个自己喜欢的专业,然后大三暑假出去实习3个月。
  要得到这种高级知识,得去特别的地方。在人人都会用的百度谷歌入口之外,还有一种精英专用搜索引擎——学术搜索,对应的入口是Google Scholar和百度学术,其提供的一切搜索结果都来自论文。科技新闻网站,比如Solidot(给极客看的中文资讯,强烈推荐)、果壳网和EurekAlert!是发现值得注意的新研究的好地方。
  过去所谓的“科普文章”都在“鬼火是磷火”之类相信科学破除迷信的阶段,讲的都是最基本的常识;而现在的科学文章只有讲到最新研究才拿得出手,背后往往有论文支持。
  一方面是科学家花了大量的时间和金钱才得到的结果,另一方面是公众根本不知道这些结果——不但不知道,而且不知道自己不知道。
  论文里的主流意见跟微信朋友圈里信誓旦旦的说法很可能恰恰相反。人们的见识跟真实世界之间有一个鸿沟,而极客可以通过读论文来跨越这个鸿沟。
  当然论文中的结论也有很多都是错的,能判断各种研究的可信度是一个高级功夫,但只要是正规的学术论文,就一定比任何一个论坛上网友的有感而发可信得多。
  功夫二:直接阅读原始数据
  最近经济学家Tyler Cowen在他博客贴了一篇有关韩国治理空气污染的文章。文章说韩国曾是一个空气污染非常严重的国家,2002年的空气质量在122个国家中排第120位。但是当韩国政府想要改善空气质量的时候,它很快就改善了——现在韩国排第43位。
  这对中国太有借鉴意义了,我立即转发到了自己的微博。
  像这样超出寻常的故事往往能刺激极客们展开自己的调查。我的微博发出5分钟内,@炼金术士gewesen 就查到了韩国煤炭消费的数据,并指出“同时韩国的煤炭消费比2002年增加了46%”。如果烧煤是空气污染的最重要来源,韩国在没有减少烧煤的情况下大幅减少空气污染就不太可能。
  又过了不到一小时,@卢昌海找到了空气质量排名的原始文件,并发现韩国在2002年的排名根本就不是第120位,而是第54位,Cowen博客中的数据是错的!
  这件事让我特别自豪,要知道Cowen的文章贴出一天也没人发现毛病。这就是极客的力量——对奇怪的事实非常敏感,产生疑问后不是空口无凭地质疑,而是立即查找数据,拿数据说话。有这样的功夫不管说什么,别人都不得不严肃对待。
  查数据,是极客的膝跳反应。杨振宁自从82岁跟翁帆结婚以后,就经常查阅年龄统计来判断自己还能活多少年。他查的年龄表人人都可以很方便地查阅到,根本没必要再拿“人生七十古来稀”这种过时的格言吓自己。
  互联网上有很多优质的数据资源。Wolfram Alpha网站可以调阅和可视化有关当今世界的很多基本数据;美国政府有一个专门的数据网站Data.gov,其中有从经济到教育科研各种数据库;而USASpending.gov则列举了各项政府花费的数据,有心人可以拿这些数据搞出很有意思的东西来。
  “大数据”现在很流行,但在中国,别说数据挖掘,哪怕仅仅是能自行寻找和阅读数据、会拿数据说话的人,都还不够多。在这方面一个美国女高中生也许可以给中国公知上一课。
  新泽西某高中的Amanda Graves收到包括耶鲁和芝加哥大学在内很多名校邀请她申请这些大学的信,但是她成绩一般,连全校前四分之一都没进。Amanda据此怀疑这些名校明知她和很多她这样的学生根本没有被录取的机会,还写这些信给她们,纯粹是故意忽悠人。
  如果你有这种想法会怎么做?你也许会跟身边人说说,或者上网吐槽,也许还会推测说名校这么做是为了多收申请费。   Amanda的做法是在华盛顿邮报发表了一篇非常漂亮的长文,充满了拿数据说话的精神:
  ——耶鲁每年吸引8万人申请,只录取1300人,被拒率93.7%;
  ——95%的耶鲁学生的高中成绩排在其高中的前10%,100%的学生排在高中前25%;
  ——芝加哥大学录取学生的数学和阅读SAT成绩中位数是在1440到1540之间,而Amanda的成绩只有1100;
  ——芝加哥大学只有1%的新生GPA在3.00到3.24之间,3.00以下的根本就没统计,而Amanda的GPA只有2.9。
  她使用的数据有些来自Google搜索,有些则来自CollegeBoard和CollegeData这样的专业网站,她还引用了权威新闻渠道的报道作为论据。文章发表之后,她甚至还因为发现芝加哥大学的录取GPA是使用加权平均法计算的,而自己的GPA没有经过加权平均法计算,二者不能直接比较,而重新计算了自己的GPA,并要求《华盛顿邮报》修改了文章。
  另外值得注意的是,中文媒体转发这条消息的时候,直接说名校这么做是为了多收申请费,而Amanda的原文却根本没这么说过——她只在数据支持下论证了名校这么做是为了提高申请被拒率,从而提高学校排名,甚至还特别说明芝加哥大学免除了她的申请费。整篇文章有理有节。
  这就是一个数学和阅读成绩都一般的美国女高中生的水平。而她做这么多调查研究并不是为了论证自己应该进名校,是为了论证自己不应该进名校!
  功夫三:主动采集和分析数据
  Nate Silver可能是现在预测界风头最劲的人物,他通过数据分析对棒球和美国选举的预测已经成为当代传奇,但是他最早玩数据的时候,却是一个业余选手。2002年,Silver还只是某个会计公司的小职员。但他有两点跟一般的会计不一样:第一,他非常喜欢棒球。第二,他是个极客。
  我们都知道美国职业体育中有各种非常详尽的统计数字。Baseball Prospectus是一本面向球迷的棒球杂志,上面刊登了每个大联盟球员,以及每个可能进入大联盟的球员的全面数据,而极客球迷看这些数据非常过瘾。
  Silver在工作之余把这些数据输入自己搞的一个非常大的电子表格中,用自己的方法评估和预测球员的表现。这套系统就是后来他赖以成名的棒球预测软件PECOTA的前身。
  2003年,Silver把这套系统卖给了Baseball Prospectus杂志。2007年,他开始发表对政治选举的预测。2008年美国大选,Silver成功预测了美国50个州中49个州的选举结果。
  一般人恐怕不会有这样的技术和时间来搞这么专业的数据分析——其实主要是没有这么大的热情——不过哪怕我们对统计不怎么感兴趣,也可以搞一些简单的玩法。
  现在极客们有个时髦的活动是量化自我。
  这通常涉及随身带一个手环之类的小电子设备,手机也可以。这个小工具将记录你每天的一举一动:睡了多长时间觉,走了多少步,去了哪里,燃烧了多少卡路里。
  Mathematica的发明人,当今天才Stephen Wolfram,记录了自己1998年以来发过的每一个电子邮件、记在日程表上的每一个事项、参加的每一次会议、打过的每一个电话、走过的每一步、甚至每一次敲击键盘的时间。
  这些数据使得我们可以更好地了解自己,监督自己,乃至改进自己。我们可以设定健身目标,完成了自我表扬,完不成自己感到羞愧。
  《奇特的一生》书中的时间管理传奇人物柳比歇夫,他获得高效率的办法就是严格记录自己在每一件事上所花的时间,通过分析这些数据来看看自己到底能干些什么。也就是说,量化自我的目的是成为自己生活的科学家:测量、处理、实验、再测量,直到取得理想结果。
  如果你对量化时间管理的重视程度达到柳比歇夫那样的级别,Daytum是个现代化的工具。更轻量级的工具包括YAST和Slimtimer。如果你像我一样只想记录一下自己在计算机上都干了什么,RescueTime非常方便。类似的工具非常之多,Sleep Time可以通过手机震动监督人的睡眠质量,mint.com 则能监督人的花钱习惯,等等。
  很多人的个人数据综合起来,可以帮助研究者更好地理解人类行为,所以量化自我也是对社会的贡献。事实上个人也能拿自己的数据搞点小研究,比如玩微博的人每天记录一下自己的粉丝数增长情况,也能发现一些有趣的事实。
  总而言之,一大波极客正在袭来。他们用论文辟谣,用数据打脸,用自己的行动树立榜样。他们可能是科学家、工程师、教师、记者或者医生,也可能是任何有评判性思维能力和理解科学方法的人。这些人是有功夫的参与者,对公共事务发言,他们也许会取代历史上的读书人和现代的公知。
  (作者为美国科罗拉多大学物理系研究员)
其他文献
2014年5月21日,上午9点不到,华东师范大学(以下简称“华师大”)的百人报告厅已满满当当。  50多岁的杨斌是苏州一中高级语文教师,早上6点半,乘坐高铁来到上海,到了华师大报告厅,他发现自己只能坐在墙角的地上了。  9点半,一位老人缓步走上讲台,人们安静下来,少顷,掌声长时间地响起——84岁的李泽厚登场了。  满头银发,乡音未改,他招手示意管理人员让门外的人们进来,接着说,“也许有人是想过来看
2015年2月13日,陕西山阳县移民搬迁户熊兴良一家在高坝移民小区新居内准备饭菜过小年  中国共产党第十八届中央委员会第五次全体会议审议通过了《中共中央关于制定国民经济和社会发展第十三个五年规划的建议》(以下简称《建议》)。《建议》中,创新、协调、绿色、开放、共享的发展理念,不仅将影响未来五年的中国,亦是更长时期内中国发展思路、发展方向、发展着力点的集中体现。  而其中颇为广大公众关注的,是事关每
骆玉明:  复旦大学中文系古代文学专业教授、博导,兼任《辞海》编委、古代文学分科主编。  契此和尚相传俗姓张,生活于五代后梁,明州(今浙江宁波)人。他是一个游方僧,常背着一口布袋出游四方,所以又被叫做“布袋和尚”。据说他圆寂时自称是弥勒佛的化身,以后人们便按照他的模样塑成了中国式的大肚弥勒佛。这种弥勒佛和印度佛教中原有的形象已经完全不同了。  关于契此的传说和大肚弥勒形象的形成,实际上代表了中国民
2014年,上海举全城之力,开始系统描绘未来的发展蓝图。  三项重大战略规划几乎同时启动:上海市国民经济和社会发展第十三个五年规划纲要,目标到2020年;上海新一轮城市总体规划,目标到2040年;上海未来30年发展战略研究,目标到2050年。  此前,上海市政府印发的《关于编制上海新一轮城市总体规划指导意见》(以下简称《指导意见》)中,未来上海发展目标定位已经明确——要在2020年基本建成“四个中
2006 年11 月,时任中国国际电视总公司总裁助理马润生(左)与美国国家地理频道相关负责人庆祝《故宫》纪录片国际版在东南亚首播  一部关于小提琴神童的片子,曾被英国BBC电视台看中,其中有这样一个情节:为了让神童练好琴,家长天不亮就让他起床,拎水练臂力。  这个在中国人的价值观中无比正确的举动,却成了BBC拒绝整部片子的理由——他们认为这是在虐待儿童。  中国不少关于历史的纪录片,开头总是很相似
朋友最近做了个小手术,晚上我和老公开车去看望她,快到的时候,我们一边找门牌号码一边找停车位。  发现路牌开过头了,就在大转弯掉头的时候,突然从右侧非机动车道上横窜出来一个骑自行车的男子,老公赶紧刹车,但还是看见男子倒在地上了。  我们吓坏了,赶紧下车查看,他坐在地上说腰受伤了,让我们给他2000元私了。我说:“先打电话报警吧,然后送你去医院检查一下,费用我们全出。”他不肯,又说:“那这样,你付我1
缺钱算是人生的缺憾之一,就像我们觉得自己长得不够漂亮一样,它是普遍存在的事实,而不是症状。甚至,缺钱还可能成为一种美德,特别是当一个人为了某种高尚目的而选择了贫穷。但是,当一个人把生活中的所有困难和问题都归结为一个原因---“缺钱”,并且以为“有钱”就可以解决一切,这时,“缺钱”就成了一种症状。  强迫症  在我们这个时代,“缺钱”正在成为相当普遍的症状,它反映出强迫症的某些性质。当一个人陷入“内
缝线抗议
编者按  2014年1月22日,美国宾夕法尼亚大学“智库项目(TTCSP)”研究成果《全球智库发展报告2013》中文版发布。  报告显示,截至2013年8月,全球各地共有智库6826家。目前全球智库数量最多的国家是美国(1828家),中国超过英国、印度、德国,以426家的总量居世界第二。  2013年4月,中共中央总书记习近平对建设中国特色新型智库作出重要批示。各界评价认为,这是迄今为止,中央最高
无论有怎样的批评,都不得不承认,这个叫IP的东西正在重塑中国电影行业的生态。  比如,上游公司挟版权优势转型,第三代电影公司由此诞生。还有从小说作家等转型而来的新生代导演,使这个传统职位在向产品经理演变。  IP,是英语“Intellectual Property”的缩写,直译为“知识产权”。它可以是一本小说、一个完整的故事,或者一个形象。  与之相连的是泛娱乐、衍生等词汇。美国迪士尼是当下中国人