论文部分内容阅读
摘 要 本文通过基础概率谬误、大数印象等几个具体事例,从作者责任和读者责任两方面,阐述“数字错觉”产生的原因及其影响,并给出有效数字统一标准等提防和控制“数字错觉”的若干意见。
关键词 数字错觉 作者责任 读者责任
中图分类号:B81 文献标识码:A
“数字错觉”(Numerical Illusion),这个略带些奇幻色彩的说法来自剑桥大学的统计学和风险学大师戴维·斯皮格豪特(Prof. David Spiegelhalter)。他第一次将这个艺术性的叫法赋予给一种学术文章中的普遍现象:文章中的数据通篇没有错误,却可能让读者得出错误的结论。
本文始于笔者2011年在英国伦敦大学学院(University College London)的一次演讲,旨在通过对日常生活中数据的处理和理解,阐述“数字错觉”产生的原因及其影响。例如前日“央行公布人均存款数,网友齐呼拖了祖国后腿”事件,我们在日常生活中,常常将“平均数”等同于“大多数人”(其实就是统计学中的“众数”),这本身并没有太大的问题,但在此次事件中,众多网友在阅读学术报告时依旧将这两个概念混淆,无法意识到少数拥有巨额存款的群体对均值的“拉拽”作用。说明在理性理解学术数据的道路上,我们还有很长的路要走。
每当出现这类“数字错觉”问题,作者往往无奈于读者误解文意,读者又常常指责作者表达不清。其实,作者与读者的责任在这其中缺一不可。本文将通过几个具体的事例,从作者责任和读者责任两方面,来逐步回想我们对数据的第一印象。
1 “数字错觉”的作者责任
所谓作者责任,是指文章作者或者数据引用人在数据的选取和表达上需要做出的种种处理。在这一部分,我们将以人们谈之色变的癌症作为例子,观察生活中几种常见的问题:
1.1 基础概率谬误(Base-rate Fallacy)
基础概率谬误是指在估计最终结果时,忽略了过程中某些基本概率,这是统计学中进行主观概率判断时最容易犯的错误。
比如一个人如果吸毒,则得X癌的几率是80%,若不吸毒,则为20%;那么给定某人已经得了X癌,我们的反应往往是此人很可能吸毒,甚至有人会想当然的觉得他吸毒的概率是80%,而这常常与真实情况相去甚远。
假设一个普通群体里100人,其中吸毒者1人,不吸毒者99人。则从纯概率角度考虑(见表1):
表1
那么给定某人已经得了X癌,他吸毒的概率:
0.8€鳎?.8+19.8)€?00% = 3.88%
这与之前一些人直观反应的80%相差了20倍之多!而这虽然说是读者们想当然所造成的失误,更多的时候其实是作者刻意为之,他们故意忽略掉一些基本概率,强调一些其他比例数据,希望读者产生相应的联想,制造一个噱头或者舆论方向以达到自己的目的。所以,笔者也将此归于作者责任之中。
而下面这个例子,出自于美国Cracked网站的专栏作家詹姆斯·斯佩丁(James Spedding)和纳撒尼尔·科普(Nathaniel Cope):
假设你坐在医生的办公室中,医生告诉你,你的胰腺癌检测呈阳性,你顿时手足无措,声音颤抖,“这是真的医生吗?会不会弄错了?” 而医生的回答让你更加绝望:“非常遗憾,我们这项检测的成功率高达99%。”
99%!你死里逃生的几率似乎就剩1%了。假如医生的话不会有错,普通人甚至会放弃继续生活的勇气—— 但是统计学家会冷静地提出一个问题:普通人得胰腺癌的几率有多大?
原来,99%的检测准确率没有问题,但关键是事件的先后:检测一个已经得了胰腺癌的患者100次,仪器有99次会显示阳性;检测1000次,会有990次左右显示阳性……而准确率为99%的仪器,检测一个普通人(无论患病与否),也大概有1%的几率会显示阳性。但是给定仪器显示阳性,被检测者得胰腺癌的几率同样是99%吗?这关系到了基本概率问题。
根据资料,普通人得胰腺癌的概率为1/8000,这就是一个基本概率。有了它,我们可以来计算显示阳性后确定患有胰腺癌的概率:
P(患有胰腺癌|阳性)= P(阳性|患有胰腺癌)€譖(患有胰腺癌)€鱌(阳性)= 99%€?/8000€?% = 1.2%
这便是统计学中赫赫有名的有条件概率贝叶斯定理的最简单的应用。理论来讲,你最好的结果是只有1.2%的几率得了病!所以回去好吃好喝,乖乖检查治疗,千万别被99%吓破了胆。今后的生活中碰到“99%成功!99%准确!”这类说法,也都要长个心眼了。
1.2 大数印象(Large Number Impression)
“数字越大,风险越大”(The Larger Number,The Larger Risk)是斯皮格豪特教授提出的最典型的一类数字错觉,它在日常生活中体现在较大的数字会给人留下更深刻的印象上。比如:
100个人中有25人死于癌症。
10000个人中有2500人死于癌症。
虽然表达的比例都是25%,但是后一种说法更能给人以“比例很高,情况严重”的感觉。
数据处理的这方面作用自然而然地引起了社会学家,尤其是心理学家的关注。韦斯利安大学(Wesleyan University)心理学教授斯科特·普劳斯(Prof. Scott Plous)在《决策心理学》(“The Psychology of Judgment and Decision Making”)一文中提出了下面的例子:
每日100人死于癌症。
每年36500人死于癌症。
很显然,后一种说法给人的震撼更大。而另一组例子似乎更有说服力:
10000人中,1286人死于癌症。 100人中,24人死于癌症。
两种说法中,第一种对癌症杀伤力的描述似乎给人印象更加深刻。然而,第一种说法中的比例:1286/10000 = 13%;第二种说法中的比例:24/100 = 24%。后者竟是前者的两倍!
当然,写到这里,很多冷静的读者都会觉得不屑一顾:“我早就看出来了,我根本没有被误导!”但是不要忘了,在我们平时的阅读过程中,这些数字穿插于文字之间,关于同一问题的各项比例可能相隔甚远,基本上不可能有这样排版成上下行的对比。再考虑到较快的阅读速度,在描述数据时增加几个零的作用是难以想象的!
1.3 绝对与相对(“Absolute” vs. “Relative”)
“绝对”和“相对”早已是学术界的老生常谈了,相信大部分读者也早就对它们有了足够的敏感度,然而,数据作者在这方面的不在意还是让读者有种防不胜防的感觉。比如:
《中国日报》(“China Daily”)在2007年的一篇报道中提到,饮用热茶将提高患食道癌的几率800%;
克里斯蒂·琼斯教授(Prof. Christie Jones)在《癌症杀手》(“The Murderer Cancer”)一文中提到,每天食用1/4只柚子将提高患乳腺癌的几率近30%。
如果以上两条给你的感官刺激还不够的话,下面这条曾在欧美国家引起了很长一段时间的恐慌:
每天早上将培根三明治作为早餐,将会提高患结肠癌的几率20%!想到每天一个小小的三明治,将来就有近1/4的几率得结肠癌,很多欧美国家的人民都不得不放弃了这几百年来最熟悉的早餐食品……直到统计学家们猛烈抨击了此条数据的原作者。前文反复提到的斯皮格豪特教授就是抨击者中的一位,他向大众解释道:
“普通人患有结肠癌的几率大概是5%,而这提高的20%其实是一个相对比例,即5%的20%。所以就算这个说法为真,在一个人坚持不懈地食用培根三明治之后,他得结肠癌的几率也不是20%+5% = 25%,而是:5%+5%€?0% = 6%
仅仅提高了一个百分比!笔者在这里要提醒那些心满意足回家又开始吃三明治的读者们,以后碰到“提高了多少比例”,抑或是“进步最快的公司/团体”这类说法,心里都要好好斟酌一下了。
如果有读者想要进一步了解关于统计数据处理和表达中的种种奇妙作用,笔者在这里推荐美国统计学家达莱尔·哈夫(Prof. Darrel Huff)的《统计陷阱》(“How to Lie With Statistics”)一书,此书堪称各种统计迷局的经典,唯一遗憾的是它只从作者责任的角度进行了讨论。下面本文将简单地从读者责任方面,也尝试探讨一下数字错觉的产生。
2 “数字错觉”的读者责任
读者作为数据的受众,是数据的服务对象,本来并没有什么责任,而数据作者应该完全根据读者的阅读习惯展示自己的数据。然而,就算作者已经非常准确完美地展现了自己的数据,在面对一些更深层次问题的直觉和思考上,读者的一些习惯还是会不可避免地造成数字错觉。我们这里探讨的,就是如何控制读者自身的这些习惯,哪怕只是能够意识到它们,也能有助于我们更理性更准确地理解数据资料。
我们举一个简单的例子,即概率学中最为经典的生日悖论(Birthday Paradox):在随机50个人中,至少有两个人同月同日生的概率为多少?
相信曾经研究过此问题的读者已经能会心一笑,而从未接触过此题的读者的第一反应会是多少呢?50个人,一年365天,同一日出生的概率:10%?20%?难道是50%?
这里笔者给出一个简单的算法(其实只是简单的乘法原理),以平年计算:
1365/365€?64/365€?63/365€住?€?316/365 = 97%。
97%!几乎是必然事件!相信没接触过本题的读者在第一时间都没有想到,毕竟50人的样本容量在365个不同事件中不过是1:7的比例。那么是什么原因造成如此的反差呢?伊利诺伊大学香槟分校(University of Illinois at Urbana-Champaign, UIUC)的克雷教授(Prof. S. Clay)在《美国数学月刊》(“American Mathematical Monthly”)对此问题做了比较深刻的讨论。
首先,只考虑1个人的时候,毫无疑问概率为0;另一方面,当有366个人时(考虑平年),由抽屉原理,概率为100%。于是,人们不由自主地对这个范围做一个线性划分:50/366 = 13.6%。
相信这样的结果会是很多人的直觉反应。然而,真正的情况又是如何呢?我们根据我们拥有的样本容量(人数),设立一个关于的概率函数,表达如下:
() = 1365/365 €?364/365 €?363/365 €?… €?(365+1)/365
可以看出,这是一个上凸的曲线,在 = 0至 = 50之间急速上升,之后趋近平缓直到概率等于1。从图中也可以看出,如果想让相同生日存在的概率超过一半(50%),我们只需要23个人就够了。
那为什么人们的直觉反应会认为这是一个线性关系呢?除了日常生活中线性关系比较常见,思维惯性在作祟之外,另外一个重要原因便是人们在思考问题时,常常将自己带入问题情境。假如我们对问题稍作修改:在包括你在内的n个人中,至少有一人与你是同月同日生的概率是多少?我们有下面的函数(图2): () = 1
将这个函数的图像画出之后,我们会发现它近似于一个线性图案!这种神奇的巧合早在1966年就被美国的麦金尼教授(Prof. E. H. McKinney)提出了。而至于这和人们的潜意识反应是否有关,还有待心理学家的进一步实验。
3 结束语 由于篇幅的限制,还有许多统计学中关于数据的趣闻没有机会向大家展示,比如风靡一时的选择悖论(Selection Paradox),纯数字与几何制表在比例表现上的差异等等。数字错觉的产生不可避免,但是可以提防和控制:关于学术类文章中有效数字统一标准的出台,为明确数据类型做出的硬性规定,当然还包括广大读者理性客观理解数据能力的提高,都是科学文献普及进程中的重要进步。
另外,笔者在这里不太赞同将所有的数字错觉都视为陷阱,很多时候发现并理解其中的奥秘也甚为有趣。除了取用于科学,更要享受于科学。
参考文献
[1] Cope.N.,J.Spedding.2013. 5 Ways Statistics Are Used to Lie to You Every Day. Cracked Articles. http://www.cracked.com (accessed July 15, 2013)
[2] Clay.S.2008.A Birthday Problem. American Mathematical Monthly 80(3):1141-1142.
[3] Jones.C.2007. The Murderer Cancer. American Scientist 22 (4): 78-81. Wiley Online. http://www.wileyonline.com (accessed March 14,2011).
[4] McKinney.E.H.1966. Generalized Birthday Problem. American Mathematical Monthly 7(3):385-387.Sciencedirect. http://www.sciencedirect.com (accessed March 15, 2011).
[5] Plous.S.2000.The Psychology of Judgement and Decision Making. Applied Psychology 12(6):124-128.
[6] Spiegelhalter. D. 2009. Why risk is a risky business? The New Scientist 203 (2721):20-21.
关键词 数字错觉 作者责任 读者责任
中图分类号:B81 文献标识码:A
“数字错觉”(Numerical Illusion),这个略带些奇幻色彩的说法来自剑桥大学的统计学和风险学大师戴维·斯皮格豪特(Prof. David Spiegelhalter)。他第一次将这个艺术性的叫法赋予给一种学术文章中的普遍现象:文章中的数据通篇没有错误,却可能让读者得出错误的结论。
本文始于笔者2011年在英国伦敦大学学院(University College London)的一次演讲,旨在通过对日常生活中数据的处理和理解,阐述“数字错觉”产生的原因及其影响。例如前日“央行公布人均存款数,网友齐呼拖了祖国后腿”事件,我们在日常生活中,常常将“平均数”等同于“大多数人”(其实就是统计学中的“众数”),这本身并没有太大的问题,但在此次事件中,众多网友在阅读学术报告时依旧将这两个概念混淆,无法意识到少数拥有巨额存款的群体对均值的“拉拽”作用。说明在理性理解学术数据的道路上,我们还有很长的路要走。
每当出现这类“数字错觉”问题,作者往往无奈于读者误解文意,读者又常常指责作者表达不清。其实,作者与读者的责任在这其中缺一不可。本文将通过几个具体的事例,从作者责任和读者责任两方面,来逐步回想我们对数据的第一印象。
1 “数字错觉”的作者责任
所谓作者责任,是指文章作者或者数据引用人在数据的选取和表达上需要做出的种种处理。在这一部分,我们将以人们谈之色变的癌症作为例子,观察生活中几种常见的问题:
1.1 基础概率谬误(Base-rate Fallacy)
基础概率谬误是指在估计最终结果时,忽略了过程中某些基本概率,这是统计学中进行主观概率判断时最容易犯的错误。
比如一个人如果吸毒,则得X癌的几率是80%,若不吸毒,则为20%;那么给定某人已经得了X癌,我们的反应往往是此人很可能吸毒,甚至有人会想当然的觉得他吸毒的概率是80%,而这常常与真实情况相去甚远。
假设一个普通群体里100人,其中吸毒者1人,不吸毒者99人。则从纯概率角度考虑(见表1):
表1
那么给定某人已经得了X癌,他吸毒的概率:
0.8€鳎?.8+19.8)€?00% = 3.88%
这与之前一些人直观反应的80%相差了20倍之多!而这虽然说是读者们想当然所造成的失误,更多的时候其实是作者刻意为之,他们故意忽略掉一些基本概率,强调一些其他比例数据,希望读者产生相应的联想,制造一个噱头或者舆论方向以达到自己的目的。所以,笔者也将此归于作者责任之中。
而下面这个例子,出自于美国Cracked网站的专栏作家詹姆斯·斯佩丁(James Spedding)和纳撒尼尔·科普(Nathaniel Cope):
假设你坐在医生的办公室中,医生告诉你,你的胰腺癌检测呈阳性,你顿时手足无措,声音颤抖,“这是真的医生吗?会不会弄错了?” 而医生的回答让你更加绝望:“非常遗憾,我们这项检测的成功率高达99%。”
99%!你死里逃生的几率似乎就剩1%了。假如医生的话不会有错,普通人甚至会放弃继续生活的勇气—— 但是统计学家会冷静地提出一个问题:普通人得胰腺癌的几率有多大?
原来,99%的检测准确率没有问题,但关键是事件的先后:检测一个已经得了胰腺癌的患者100次,仪器有99次会显示阳性;检测1000次,会有990次左右显示阳性……而准确率为99%的仪器,检测一个普通人(无论患病与否),也大概有1%的几率会显示阳性。但是给定仪器显示阳性,被检测者得胰腺癌的几率同样是99%吗?这关系到了基本概率问题。
根据资料,普通人得胰腺癌的概率为1/8000,这就是一个基本概率。有了它,我们可以来计算显示阳性后确定患有胰腺癌的概率:
P(患有胰腺癌|阳性)= P(阳性|患有胰腺癌)€譖(患有胰腺癌)€鱌(阳性)= 99%€?/8000€?% = 1.2%
这便是统计学中赫赫有名的有条件概率贝叶斯定理的最简单的应用。理论来讲,你最好的结果是只有1.2%的几率得了病!所以回去好吃好喝,乖乖检查治疗,千万别被99%吓破了胆。今后的生活中碰到“99%成功!99%准确!”这类说法,也都要长个心眼了。
1.2 大数印象(Large Number Impression)
“数字越大,风险越大”(The Larger Number,The Larger Risk)是斯皮格豪特教授提出的最典型的一类数字错觉,它在日常生活中体现在较大的数字会给人留下更深刻的印象上。比如:
100个人中有25人死于癌症。
10000个人中有2500人死于癌症。
虽然表达的比例都是25%,但是后一种说法更能给人以“比例很高,情况严重”的感觉。
数据处理的这方面作用自然而然地引起了社会学家,尤其是心理学家的关注。韦斯利安大学(Wesleyan University)心理学教授斯科特·普劳斯(Prof. Scott Plous)在《决策心理学》(“The Psychology of Judgment and Decision Making”)一文中提出了下面的例子:
每日100人死于癌症。
每年36500人死于癌症。
很显然,后一种说法给人的震撼更大。而另一组例子似乎更有说服力:
10000人中,1286人死于癌症。 100人中,24人死于癌症。
两种说法中,第一种对癌症杀伤力的描述似乎给人印象更加深刻。然而,第一种说法中的比例:1286/10000 = 13%;第二种说法中的比例:24/100 = 24%。后者竟是前者的两倍!
当然,写到这里,很多冷静的读者都会觉得不屑一顾:“我早就看出来了,我根本没有被误导!”但是不要忘了,在我们平时的阅读过程中,这些数字穿插于文字之间,关于同一问题的各项比例可能相隔甚远,基本上不可能有这样排版成上下行的对比。再考虑到较快的阅读速度,在描述数据时增加几个零的作用是难以想象的!
1.3 绝对与相对(“Absolute” vs. “Relative”)
“绝对”和“相对”早已是学术界的老生常谈了,相信大部分读者也早就对它们有了足够的敏感度,然而,数据作者在这方面的不在意还是让读者有种防不胜防的感觉。比如:
《中国日报》(“China Daily”)在2007年的一篇报道中提到,饮用热茶将提高患食道癌的几率800%;
克里斯蒂·琼斯教授(Prof. Christie Jones)在《癌症杀手》(“The Murderer Cancer”)一文中提到,每天食用1/4只柚子将提高患乳腺癌的几率近30%。
如果以上两条给你的感官刺激还不够的话,下面这条曾在欧美国家引起了很长一段时间的恐慌:
每天早上将培根三明治作为早餐,将会提高患结肠癌的几率20%!想到每天一个小小的三明治,将来就有近1/4的几率得结肠癌,很多欧美国家的人民都不得不放弃了这几百年来最熟悉的早餐食品……直到统计学家们猛烈抨击了此条数据的原作者。前文反复提到的斯皮格豪特教授就是抨击者中的一位,他向大众解释道:
“普通人患有结肠癌的几率大概是5%,而这提高的20%其实是一个相对比例,即5%的20%。所以就算这个说法为真,在一个人坚持不懈地食用培根三明治之后,他得结肠癌的几率也不是20%+5% = 25%,而是:5%+5%€?0% = 6%
仅仅提高了一个百分比!笔者在这里要提醒那些心满意足回家又开始吃三明治的读者们,以后碰到“提高了多少比例”,抑或是“进步最快的公司/团体”这类说法,心里都要好好斟酌一下了。
如果有读者想要进一步了解关于统计数据处理和表达中的种种奇妙作用,笔者在这里推荐美国统计学家达莱尔·哈夫(Prof. Darrel Huff)的《统计陷阱》(“How to Lie With Statistics”)一书,此书堪称各种统计迷局的经典,唯一遗憾的是它只从作者责任的角度进行了讨论。下面本文将简单地从读者责任方面,也尝试探讨一下数字错觉的产生。
2 “数字错觉”的读者责任
读者作为数据的受众,是数据的服务对象,本来并没有什么责任,而数据作者应该完全根据读者的阅读习惯展示自己的数据。然而,就算作者已经非常准确完美地展现了自己的数据,在面对一些更深层次问题的直觉和思考上,读者的一些习惯还是会不可避免地造成数字错觉。我们这里探讨的,就是如何控制读者自身的这些习惯,哪怕只是能够意识到它们,也能有助于我们更理性更准确地理解数据资料。
我们举一个简单的例子,即概率学中最为经典的生日悖论(Birthday Paradox):在随机50个人中,至少有两个人同月同日生的概率为多少?
相信曾经研究过此问题的读者已经能会心一笑,而从未接触过此题的读者的第一反应会是多少呢?50个人,一年365天,同一日出生的概率:10%?20%?难道是50%?
这里笔者给出一个简单的算法(其实只是简单的乘法原理),以平年计算:
1365/365€?64/365€?63/365€住?€?316/365 = 97%。
97%!几乎是必然事件!相信没接触过本题的读者在第一时间都没有想到,毕竟50人的样本容量在365个不同事件中不过是1:7的比例。那么是什么原因造成如此的反差呢?伊利诺伊大学香槟分校(University of Illinois at Urbana-Champaign, UIUC)的克雷教授(Prof. S. Clay)在《美国数学月刊》(“American Mathematical Monthly”)对此问题做了比较深刻的讨论。
首先,只考虑1个人的时候,毫无疑问概率为0;另一方面,当有366个人时(考虑平年),由抽屉原理,概率为100%。于是,人们不由自主地对这个范围做一个线性划分:50/366 = 13.6%。
相信这样的结果会是很多人的直觉反应。然而,真正的情况又是如何呢?我们根据我们拥有的样本容量(人数),设立一个关于的概率函数,表达如下:
() = 1365/365 €?364/365 €?363/365 €?… €?(365+1)/365
可以看出,这是一个上凸的曲线,在 = 0至 = 50之间急速上升,之后趋近平缓直到概率等于1。从图中也可以看出,如果想让相同生日存在的概率超过一半(50%),我们只需要23个人就够了。
那为什么人们的直觉反应会认为这是一个线性关系呢?除了日常生活中线性关系比较常见,思维惯性在作祟之外,另外一个重要原因便是人们在思考问题时,常常将自己带入问题情境。假如我们对问题稍作修改:在包括你在内的n个人中,至少有一人与你是同月同日生的概率是多少?我们有下面的函数(图2): () = 1
将这个函数的图像画出之后,我们会发现它近似于一个线性图案!这种神奇的巧合早在1966年就被美国的麦金尼教授(Prof. E. H. McKinney)提出了。而至于这和人们的潜意识反应是否有关,还有待心理学家的进一步实验。
3 结束语 由于篇幅的限制,还有许多统计学中关于数据的趣闻没有机会向大家展示,比如风靡一时的选择悖论(Selection Paradox),纯数字与几何制表在比例表现上的差异等等。数字错觉的产生不可避免,但是可以提防和控制:关于学术类文章中有效数字统一标准的出台,为明确数据类型做出的硬性规定,当然还包括广大读者理性客观理解数据能力的提高,都是科学文献普及进程中的重要进步。
另外,笔者在这里不太赞同将所有的数字错觉都视为陷阱,很多时候发现并理解其中的奥秘也甚为有趣。除了取用于科学,更要享受于科学。
参考文献
[1] Cope.N.,J.Spedding.2013. 5 Ways Statistics Are Used to Lie to You Every Day. Cracked Articles. http://www.cracked.com (accessed July 15, 2013)
[2] Clay.S.2008.A Birthday Problem. American Mathematical Monthly 80(3):1141-1142.
[3] Jones.C.2007. The Murderer Cancer. American Scientist 22 (4): 78-81. Wiley Online. http://www.wileyonline.com (accessed March 14,2011).
[4] McKinney.E.H.1966. Generalized Birthday Problem. American Mathematical Monthly 7(3):385-387.Sciencedirect. http://www.sciencedirect.com (accessed March 15, 2011).
[5] Plous.S.2000.The Psychology of Judgement and Decision Making. Applied Psychology 12(6):124-128.
[6] Spiegelhalter. D. 2009. Why risk is a risky business? The New Scientist 203 (2721):20-21.