数字错觉

来源 :科教导刊 | 被引量 : 0次 | 上传用户:ldlhongerfly
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要 本文通过基础概率谬误、大数印象等几个具体事例,从作者责任和读者责任两方面,阐述“数字错觉”产生的原因及其影响,并给出有效数字统一标准等提防和控制“数字错觉”的若干意见。
  关键词 数字错觉 作者责任 读者责任
  中图分类号:B81 文献标识码:A
  “数字错觉”(Numerical Illusion),这个略带些奇幻色彩的说法来自剑桥大学的统计学和风险学大师戴维·斯皮格豪特(Prof. David Spiegelhalter)。他第一次将这个艺术性的叫法赋予给一种学术文章中的普遍现象:文章中的数据通篇没有错误,却可能让读者得出错误的结论。
  本文始于笔者2011年在英国伦敦大学学院(University College London)的一次演讲,旨在通过对日常生活中数据的处理和理解,阐述“数字错觉”产生的原因及其影响。例如前日“央行公布人均存款数,网友齐呼拖了祖国后腿”事件,我们在日常生活中,常常将“平均数”等同于“大多数人”(其实就是统计学中的“众数”),这本身并没有太大的问题,但在此次事件中,众多网友在阅读学术报告时依旧将这两个概念混淆,无法意识到少数拥有巨额存款的群体对均值的“拉拽”作用。说明在理性理解学术数据的道路上,我们还有很长的路要走。
  每当出现这类“数字错觉”问题,作者往往无奈于读者误解文意,读者又常常指责作者表达不清。其实,作者与读者的责任在这其中缺一不可。本文将通过几个具体的事例,从作者责任和读者责任两方面,来逐步回想我们对数据的第一印象。
  1 “数字错觉”的作者责任
  所谓作者责任,是指文章作者或者数据引用人在数据的选取和表达上需要做出的种种处理。在这一部分,我们将以人们谈之色变的癌症作为例子,观察生活中几种常见的问题:
  1.1 基础概率谬误(Base-rate Fallacy)
  基础概率谬误是指在估计最终结果时,忽略了过程中某些基本概率,这是统计学中进行主观概率判断时最容易犯的错误。
  比如一个人如果吸毒,则得X癌的几率是80%,若不吸毒,则为20%;那么给定某人已经得了X癌,我们的反应往往是此人很可能吸毒,甚至有人会想当然的觉得他吸毒的概率是80%,而这常常与真实情况相去甚远。
  假设一个普通群体里100人,其中吸毒者1人,不吸毒者99人。则从纯概率角度考虑(见表1):
  表1
  那么给定某人已经得了X癌,他吸毒的概率:
  0.8€鳎?.8+19.8)€?00% = 3.88%
  这与之前一些人直观反应的80%相差了20倍之多!而这虽然说是读者们想当然所造成的失误,更多的时候其实是作者刻意为之,他们故意忽略掉一些基本概率,强调一些其他比例数据,希望读者产生相应的联想,制造一个噱头或者舆论方向以达到自己的目的。所以,笔者也将此归于作者责任之中。
  而下面这个例子,出自于美国Cracked网站的专栏作家詹姆斯·斯佩丁(James Spedding)和纳撒尼尔·科普(Nathaniel Cope):
  假设你坐在医生的办公室中,医生告诉你,你的胰腺癌检测呈阳性,你顿时手足无措,声音颤抖,“这是真的医生吗?会不会弄错了?” 而医生的回答让你更加绝望:“非常遗憾,我们这项检测的成功率高达99%。”
  99%!你死里逃生的几率似乎就剩1%了。假如医生的话不会有错,普通人甚至会放弃继续生活的勇气—— 但是统计学家会冷静地提出一个问题:普通人得胰腺癌的几率有多大?
  原来,99%的检测准确率没有问题,但关键是事件的先后:检测一个已经得了胰腺癌的患者100次,仪器有99次会显示阳性;检测1000次,会有990次左右显示阳性……而准确率为99%的仪器,检测一个普通人(无论患病与否),也大概有1%的几率会显示阳性。但是给定仪器显示阳性,被检测者得胰腺癌的几率同样是99%吗?这关系到了基本概率问题。
  根据资料,普通人得胰腺癌的概率为1/8000,这就是一个基本概率。有了它,我们可以来计算显示阳性后确定患有胰腺癌的概率:
  P(患有胰腺癌|阳性)= P(阳性|患有胰腺癌)€譖(患有胰腺癌)€鱌(阳性)= 99%€?/8000€?% = 1.2%
  这便是统计学中赫赫有名的有条件概率贝叶斯定理的最简单的应用。理论来讲,你最好的结果是只有1.2%的几率得了病!所以回去好吃好喝,乖乖检查治疗,千万别被99%吓破了胆。今后的生活中碰到“99%成功!99%准确!”这类说法,也都要长个心眼了。
  1.2 大数印象(Large Number Impression)
  “数字越大,风险越大”(The Larger Number,The Larger Risk)是斯皮格豪特教授提出的最典型的一类数字错觉,它在日常生活中体现在较大的数字会给人留下更深刻的印象上。比如:
  100个人中有25人死于癌症。
  10000个人中有2500人死于癌症。
  虽然表达的比例都是25%,但是后一种说法更能给人以“比例很高,情况严重”的感觉。
  数据处理的这方面作用自然而然地引起了社会学家,尤其是心理学家的关注。韦斯利安大学(Wesleyan University)心理学教授斯科特·普劳斯(Prof. Scott Plous)在《决策心理学》(“The Psychology of Judgment and Decision Making”)一文中提出了下面的例子:
  每日100人死于癌症。
  每年36500人死于癌症。
  很显然,后一种说法给人的震撼更大。而另一组例子似乎更有说服力:
  10000人中,1286人死于癌症。   100人中,24人死于癌症。
  两种说法中,第一种对癌症杀伤力的描述似乎给人印象更加深刻。然而,第一种说法中的比例:1286/10000 = 13%;第二种说法中的比例:24/100 = 24%。后者竟是前者的两倍!
  当然,写到这里,很多冷静的读者都会觉得不屑一顾:“我早就看出来了,我根本没有被误导!”但是不要忘了,在我们平时的阅读过程中,这些数字穿插于文字之间,关于同一问题的各项比例可能相隔甚远,基本上不可能有这样排版成上下行的对比。再考虑到较快的阅读速度,在描述数据时增加几个零的作用是难以想象的!
  1.3 绝对与相对(“Absolute” vs. “Relative”)
  “绝对”和“相对”早已是学术界的老生常谈了,相信大部分读者也早就对它们有了足够的敏感度,然而,数据作者在这方面的不在意还是让读者有种防不胜防的感觉。比如:
  《中国日报》(“China Daily”)在2007年的一篇报道中提到,饮用热茶将提高患食道癌的几率800%;
  克里斯蒂·琼斯教授(Prof. Christie Jones)在《癌症杀手》(“The Murderer Cancer”)一文中提到,每天食用1/4只柚子将提高患乳腺癌的几率近30%。
  如果以上两条给你的感官刺激还不够的话,下面这条曾在欧美国家引起了很长一段时间的恐慌:
  每天早上将培根三明治作为早餐,将会提高患结肠癌的几率20%!想到每天一个小小的三明治,将来就有近1/4的几率得结肠癌,很多欧美国家的人民都不得不放弃了这几百年来最熟悉的早餐食品……直到统计学家们猛烈抨击了此条数据的原作者。前文反复提到的斯皮格豪特教授就是抨击者中的一位,他向大众解释道:
  “普通人患有结肠癌的几率大概是5%,而这提高的20%其实是一个相对比例,即5%的20%。所以就算这个说法为真,在一个人坚持不懈地食用培根三明治之后,他得结肠癌的几率也不是20%+5% = 25%,而是:5%+5%€?0% = 6%
  仅仅提高了一个百分比!笔者在这里要提醒那些心满意足回家又开始吃三明治的读者们,以后碰到“提高了多少比例”,抑或是“进步最快的公司/团体”这类说法,心里都要好好斟酌一下了。
  如果有读者想要进一步了解关于统计数据处理和表达中的种种奇妙作用,笔者在这里推荐美国统计学家达莱尔·哈夫(Prof. Darrel Huff)的《统计陷阱》(“How to Lie With Statistics”)一书,此书堪称各种统计迷局的经典,唯一遗憾的是它只从作者责任的角度进行了讨论。下面本文将简单地从读者责任方面,也尝试探讨一下数字错觉的产生。
  2 “数字错觉”的读者责任
  读者作为数据的受众,是数据的服务对象,本来并没有什么责任,而数据作者应该完全根据读者的阅读习惯展示自己的数据。然而,就算作者已经非常准确完美地展现了自己的数据,在面对一些更深层次问题的直觉和思考上,读者的一些习惯还是会不可避免地造成数字错觉。我们这里探讨的,就是如何控制读者自身的这些习惯,哪怕只是能够意识到它们,也能有助于我们更理性更准确地理解数据资料。
  我们举一个简单的例子,即概率学中最为经典的生日悖论(Birthday Paradox):在随机50个人中,至少有两个人同月同日生的概率为多少?
  相信曾经研究过此问题的读者已经能会心一笑,而从未接触过此题的读者的第一反应会是多少呢?50个人,一年365天,同一日出生的概率:10%?20%?难道是50%?
  这里笔者给出一个简单的算法(其实只是简单的乘法原理),以平年计算:
  1365/365€?64/365€?63/365€住?€?316/365 = 97%。
  97%!几乎是必然事件!相信没接触过本题的读者在第一时间都没有想到,毕竟50人的样本容量在365个不同事件中不过是1:7的比例。那么是什么原因造成如此的反差呢?伊利诺伊大学香槟分校(University of Illinois at Urbana-Champaign, UIUC)的克雷教授(Prof. S. Clay)在《美国数学月刊》(“American Mathematical Monthly”)对此问题做了比较深刻的讨论。
  首先,只考虑1个人的时候,毫无疑问概率为0;另一方面,当有366个人时(考虑平年),由抽屉原理,概率为100%。于是,人们不由自主地对这个范围做一个线性划分:50/366 = 13.6%。
  相信这样的结果会是很多人的直觉反应。然而,真正的情况又是如何呢?我们根据我们拥有的样本容量(人数),设立一个关于的概率函数,表达如下:
  () = 1365/365 €?364/365 €?363/365 €?… €?(365+1)/365
  可以看出,这是一个上凸的曲线,在 = 0至 = 50之间急速上升,之后趋近平缓直到概率等于1。从图中也可以看出,如果想让相同生日存在的概率超过一半(50%),我们只需要23个人就够了。
  那为什么人们的直觉反应会认为这是一个线性关系呢?除了日常生活中线性关系比较常见,思维惯性在作祟之外,另外一个重要原因便是人们在思考问题时,常常将自己带入问题情境。假如我们对问题稍作修改:在包括你在内的n个人中,至少有一人与你是同月同日生的概率是多少?我们有下面的函数(图2): () = 1
  将这个函数的图像画出之后,我们会发现它近似于一个线性图案!这种神奇的巧合早在1966年就被美国的麦金尼教授(Prof. E. H. McKinney)提出了。而至于这和人们的潜意识反应是否有关,还有待心理学家的进一步实验。
  3 结束语   由于篇幅的限制,还有许多统计学中关于数据的趣闻没有机会向大家展示,比如风靡一时的选择悖论(Selection Paradox),纯数字与几何制表在比例表现上的差异等等。数字错觉的产生不可避免,但是可以提防和控制:关于学术类文章中有效数字统一标准的出台,为明确数据类型做出的硬性规定,当然还包括广大读者理性客观理解数据能力的提高,都是科学文献普及进程中的重要进步。
  另外,笔者在这里不太赞同将所有的数字错觉都视为陷阱,很多时候发现并理解其中的奥秘也甚为有趣。除了取用于科学,更要享受于科学。
  参考文献
  [1] Cope.N.,J.Spedding.2013. 5 Ways Statistics Are Used to Lie to You Every Day. Cracked Articles. http://www.cracked.com (accessed July 15, 2013)
  [2] Clay.S.2008.A Birthday Problem. American Mathematical Monthly 80(3):1141-1142.
  [3] Jones.C.2007. The Murderer Cancer. American Scientist 22 (4): 78-81. Wiley Online. http://www.wileyonline.com (accessed March 14,2011).
  [4] McKinney.E.H.1966. Generalized Birthday Problem. American Mathematical Monthly 7(3):385-387.Sciencedirect. http://www.sciencedirect.com (accessed March 15, 2011).
  [5] Plous.S.2000.The Psychology of Judgement and Decision Making. Applied Psychology 12(6):124-128.
  [6] Spiegelhalter. D. 2009. Why risk is a risky business? The New Scientist 203 (2721):20-21.
其他文献
摘 要 科学的教育理念和教学方法对提高医学生综合素质、顺利实施就业心理指导等方面具有重要意义,以确保医学院校的可持续发展。本次调查表明医学生在自身的职业定位、就业期望、求职技巧及就业心理等方面存在诸多问题。  关键词 医学生 就业指导 就业心理  中图分类号:G444 文献标识码:A  近年来毕业生就业形势愈加严峻,而医学毕业生更是首当其冲。部分医学生就业心理压力过大、就业期望值过高以及医疗机构对
期刊
摘 要 利用现代教育技术手段开展网络教学,是高校深化教学改革,适应社会全面推进素质教育的需要,同时通过网络平台建设、学习资源建设和研究型教学的开展促进了大学生学习能力、实践能力和创新能力培养的目标。推进师生参与、鼓励网络应用,结合课程特点、注重资源建设,深化教学改革、改进评价机制,有利于网络教育的进一步优化。  关键词 网络教育 资源建设 theol  中图分类号:G424 文献标识码:A  1
期刊
摘 要 医学遗传学是临床医学专业生物医学课程中的核心课程,也是基础医学与临床医学的桥梁学科。本文就如何在大三上学期医学生已经开始临床见习的基础上对该课程进行有效教学,在教学方式与方法等方面初步进行了探索和实践,以取得良好的教学效果。  关键词 医学遗传学 教学探索 实践  中图分类号:G424 文献标识码:A  医学遗传学(medical genetics)是将遗传学基本理论与临床医学实践相结合形
期刊
摘 要 随着社会对物流人才的需求不断增加,引发了物流人才教育市场的激烈竞争。为了获得更好的发展,众多高职院校都在努力打造属于自己的品牌专业。本文以重庆机电职业技术学院为例,分析了塑造物流管理品牌专业的必要性,提出了塑造品牌专业的思路。  关键词 物流管理 品牌 塑造  中图分类号:G640 文献标识码:A  1 品牌与品牌专业  与品牌有关的定义很多,著名市场营销专家菲利普·科特勒提供的概念:“品
期刊
摘 要 “归化”是当代译坛讨论的热点问题。但是专门探讨归化的尺度的文章很少。本文将从跨文化交际的角度,结合大量的翻译实例,对“归化”的尺度进行深入探讨。本文包括五部分:第一部分介绍“归化”的概念及功能;第二部分介绍翻译中的归化及其优点;第三部分介绍翻译中的过度归化及其三个后果;第四部分简要介绍“归化”的不足;最后一部分总结全文。  关键词 归化 尺度 跨文化交际  中图分类号:H315.9 文献标
期刊
摘 要 从建构主义理论的角度,“以学生为中心”的教学模式强调学生对知识的主动探索、主动发现和对所学知识意义的主动建构。本文针对目前经济学专业英语“以教师为中心”的传统教学模式中存在的问题,并以“以学生为中心”的教育理论为依据,提出该课程在教学设计、教学方法、教学手段、考核方式等多个教学环节中实现“以学生为中心”的建议和设想。  关键词 经济学专业英语 教学模式 以学生为中心  中图分类号:G424
期刊
摘 要 情境认知理论认为,人的思维学习活动和环境是相互建构的整体,而不是分离的。杜威关于学校教育的理论也指出学校教育是儿童进入成人社会的准备。因此,本文拟通过对一系列科学思维培养实验课的观察、记录和对比分析,总结出:“情境创设-启发提问”式教学模式在小学生思维培养课堂的效用。该文的观察数据均来自《宁夏少数民族素质教育中科学思维培养及试点学校建设项目》开展的实验课堂。  关键词 情境认知理论 思维培
期刊
摘 要 本文从国学以及国学教育的内涵出发,探讨在高职院校进行国学教育的意义。从成立专门教育机构、加强教师队伍建设,重视课堂教学、探究教学方法,营造良好文化氛围、培养学生的兴趣三个方面入手,以山东商务职业学院为例,对国学教育在高职院校的推广及应用作了初步探索与探究。  关键词 国学教育 高职院校 探索探究  中图分类号:G640 文献标识码:A  长期以来,以职业教育为导向的高职院校普遍存在着重技术
期刊
摘 要 20世纪初具有反马克思主义特征的实证主义思潮盛行一时。为了消除实证主义对于马克思主义理论发展和传播的不良影响,列宁与卢卡奇不谋而合地对实证主义进行了严正的批判,深刻地揭示了实证主义反历史主义和反辩证法的形而上学本质。列宁、卢卡奇与实证主义的这场思想交锋有力地捍卫了马克思辩证法的真理地位,对马克思主义理论的发展产生了重大而深远的影响。  关键词 列宁 卢卡奇 实证主义 历史主义 辩证法  中
期刊
Abstract With batch after batch of college students heading off to the west, The College Students’ Western China Volunteer Teaching Program has been vigorous and spectacular, and the work of volunteer
期刊