论文部分内容阅读
〔摘要〕 大数据主义者强调数据及其相关性在科学发现中的重要地位,但并不否认理论的作用,也不否认因果性的存在,更不否认世界的规律性。大数据主义者试图克服理论先入为主的偏见,强调让数据自己说话,增加了数据密集型科学知识生产新方式。大数据主义者试图用相关性纠正传统科学对因果性的偏执,科学发现中首先应重点寻找数据间的相关关系,进而为因果关系的发现提供进一步探索的路标。大数据主义者不但承认世界的规律性,而且拓宽了规律的内涵和外延,用数据规律补充了以往那种单一的因果规律,规律的范围从而得到了重大的拓展。
〔关键词〕 大数据主义者,相关性,因果性,理论,因果,规律
〔中图分类号〕N02 〔文献标识码〕A 〔文章编号〕1004-4175(2016)06-0033-07
大数据的兴起,给传统的科学哲学带来许多新挑战,特别是对诸如科学理论的作用、因果关系、科学规律等科学哲学的核心问题提出了有别于传统的新观点。齐磊磊博士概括总结了大数据相关学者的论述,在《哲学动态》杂志发表了题为《大数据经验主义——如何看待理论、因果与规律》的重要文章 〔1 〕。她在文中提出了大数据经验主义的概念,并系统提炼了大数据经验主义的科学哲学观点,这是大数据哲学的重要提炼和概括。她认为,大数据经验主义是一种新经验主义(以下简称为大数据主义),并将其观点概括为三点:1.在科学理论问题上,大数据主义认为“理论已经终结”,否定科学理论对科学发现的作用;2.在关系到科学存亡的因果性问题上,大数据主义否定因果性的存在,提出由相关性取代因果性;3.在世界的本质问题上,大数据主义否定世界的规律性,认为世界的本质是混乱的。树立起大数据主义的靶子之后,齐磊磊进行了批判,并明确提出反对大数据主义对大数据的神化。问题是大数据主义果真要彻底否定理论、因果和规律吗?通过相关文献的研读,笔者发现,齐磊磊对大数据主义的概括过于以偏概全。为此,笔者深入大数据学者的原始文献,按照齐磊磊所分的理论、因果、规律三个维度与其商榷,试图还原大数据主义的真相,以便让人们有机会了解大数据主义者的真实观点究竟是什么。
一、大数据主义者如何看待理论
齐磊磊将大数据主义的第一个特征概括为对理论的全盘否定。她认为,在对待理论的态度上,大数据主义持彻底否定的态度,认为在大数据时代,只要数据就够了,理论成了多余,甚至彻底无用。齐磊磊得出这个结论的依据主要有三个,一是大数据前期的代表人物安德森的观点,二是畅销书《大数据时代》的作者舍恩伯格的观点,三是哈尔滨理工大学孙博文教授的观点。孙博文教授的观点是在一次会议上提出的,笔者没有参加这次会议,所以无从考证其观点的原意。下面我们主要来看安德森和舍恩伯格的观点。
安德森是美国《连线》杂志的主编和主要撰稿人,齐磊磊引用的观点出自安德森于2008年6月23日发表在《连线》杂志上的文章:《理论的终结:海量数据使科学方法变得过时》,不过齐磊磊没有找到并阅读原文,只是转引了舍恩伯格在《大数据时代》一书中所引用的部分观点。作为大数据时代的预言家,在大数据时代来临的前夜,安德森就预感到了大数据的浪潮已经惊涛拍岸,并提前预言大数据对我们传统科学方法将带来怎样的革命。安德森一开始就用统计学家乔治·博克斯在30多年前的抱怨:“所有的模型都是错的,虽然有些很有用”。〔2 〕安德森认为,传统科学发现的方法都是从理论假设出发,建立模型,然后用经验检验模型的正确性。但这种猜想性的模型往往出错,而海量数据的出现改变了这种科学知识的生产方式,Google等大数据公司不再首先从理论假设、模型出发,而是从数据出发,从海量数据中归纳、提炼、发现其中的规律。安德森提出这些观点是有前提的,首先是海量数据,即大数据的出现;二是他谈论的主旨是知识发现的问题;三是他所说的“理论的终结”只是针对知识发现的出发点而言。他认为,我们已经进入了PB(Petabytes)时代,即现在所称的大数据时代,数据资源像洪流一样爆发、增长。面对PB级别的大数据,小数据时代的“假设—模型—检验的科学方法变得过时了”。“现在有更好的方式。允许我们这么说:相关性就足够了。我们可以停止寻找模型。我们可以对数据进行分析,而不需要预先假设它会显示什么。我们可以把数字扔进世界上从未见过的最大的计算集群中,并让统计算法找到科学无法找到的模式。” 〔2 〕这就是说,在大数据时代,知识的发现可以从数据开始,不再需要预先做出理论的假设。所以,安德森所说的“理论的终结”不是说大数据时代就不需要理论,不再有理论,只是科学发现不再是从理论出发,而是从数据出发。他说:“大量的可用数据,以及处理这些数据的统计工具,提供了一个全新的方式认识世界。通过相关关系而不是因果关系,即使没有清晰的模型、统一的理论,甚至没有任何机理解释,科学依然能够取得进步。” 〔2 〕因此,安德森并不是全盘否定科学理论,只是说在大数据时代,科学发现可以从数据开始,而不是必须从理论假设出发。
齐磊磊认为,舍恩伯格的观点与安德森一致。其实,舍恩伯格虽然引用了安德森的观点,并且也同意安德森从数据及其相关性出发来进行科学发现,但在对待理论的态度上,舍恩伯格没有安德森极端,而是有所保留。舍恩伯格虽然也认为,在大数据时代,从海量数据中发现相关关系比寻找因果关系更重要,科学发现更多地依赖于数据,而不是预设的普遍规则,应尽量让数据自己说话。在大数据时代,“所有的普遍规则都不重要了……重要的是数据分析,它可以揭示一切问题。”但是,他并不完全否定理论在大数据中的作用,因为“大数据是在理论的基础上形成的”,例如大数据也要使用统计学理论和计算机理论。在数据的收集、处理、解释等环节中也要用到相关理论,他在书中明确告诫:“大数据时代不是理论消亡的时代,相反地,理论贯穿于大数据分析的方方面面。” 〔3 〕93因此,齐磊磊将舍恩伯格也归入理论终结论者是不太客观的。
科学发现模式问题是科学哲学极其重要的问题,历史上就有“科学始于观察”还是“科学始于问题”的争论。大数据来临前夕,美国计算机专家、图灵奖得主吉姆·格雷(Jim Gray)就敏锐地认识到大数据对科学发现的意义。他在2007年的一个发言中,首次提出了随着大数据的兴起,科学研究中出现了第四种研究范式。〔4 〕XViii他对历史上的科学研究范式,即科学发现的模式做了系统的分类,认为历史上曾出现过三种范式:经验范式、理论范式和计算范式。经验范式是科学发现的第一种范式,也是历史最久的范式,它的逻辑起点是人类的观察或实验,然后用归纳法将观察或实验数据归纳、提炼出科学理论,这种范式认为科学始于经验。逻辑实证主义就是这种主张的代表。逻辑实证主义主张“科学始于观察”,并主张归纳法作为其基本方法。随着逻辑实证主义被波普尔等后来者多方批判,其主张的发现模式逐渐被波普尔所主张的“科学始于问题”的发现模式所取代,这就是第二种范式,即理论范式,它出现于第一次科学革命之后,此时的科学家主要从已有理论出发,发现问题,然后进行经验检验,这就是波普尔的“猜想—反驳”模式。波普尔最重要的依据是观察渗透理论,他认为没有纯粹的客观观察,科学发现都因我们先有疑问、问题、猜想(P),然后提出相应的尝试性的假设(TT)或模型,再进行观察或实验(EE)以检验假设或模型的正确性,这就是波普尔著名的 “猜想—反驳”科学发现模式(P1-TT-EE-P2)。第三种范式出现于20世纪50年代计算机发明之后。由于问题的复杂性,我们无法直接观察或实验,只能首先建立模型,然后使用计算机进行模拟、仿真或计算,通过仿真、计算来模拟真实场景以达到研究的目的。格雷认为,随着海量数据的出现,科学发现模式发生了重大变化,在前三种科学发现范式的基础上出现了第四种范式,即数据密集型科学范式。数据密集型科学范式的逻辑起点是大数据,它从大数据出发,通过数据之间的相关关系发现大数据所呈现出来的数据规律。由大数据所构成的数据世界成为数据密集型科学研究的直接对象,数据挖掘是大数据时代科学研究最重要的方法,数据规律是数据密集型科学最重要的成果。当然,格雷也特别申明,第四种范式与前三种范式并列存在,相互补充,共同构成了科学研究的范式体系,它绝不是要取代前三种范式,只是作为前三种范式的重要补充和完善。格雷对科学研究范式的分类及其对第四种范式的论述,比较充分地表明了大数据主义者对经验、理论和数据的态度。 英国韦斯特敏斯特大学的David Chandler在论文《没有因果的世界:大数据与后人类时代的来临》中认为,大数据并不是要取代因果关系,它只是带来了新的归纳方法和新的知识生产方式。〔6 〕牛津大学互联网研究中心的Josh Cowls和Ralph Schroeder在论文《因果性、相关性及社会科学研究的大数据》中,通过访谈26位学者,详细论述了大数据时代的因果性与相关性的关系。〔7 〕受访者认为,理论终结及取代因果的说法有点过分夸张,但大数据对他们的影响的确很大,它使得社会科学研究所需数据的采集、处理变得容易。至于相关性和因果性问题,这取决于何种类型的研究:如果是商业应用之类的研究,找到相关性就够了,但社会科学理论研究则仍然需要因果性。
归纳起来,大数据主义对相关性与因果性的态度是:在大数据时代,由于数据的暴增,寻找数据间的相关性比因果性更重要,大数据主义承认事物的因果性,但更应该把握事物的相关性。齐磊磊说大数据主义否认因果性的存在,它已被相关性完全取代,这是对大数据主义的误解或误读。大数据主义为什么强调相关性,弱化因果性呢?我们可以从四个方面来说明。(1)就相关性与因果性的关系来说,相关性更广泛,因果性更严格,因果性是相关性的一种特例。在哲学史上,对这两者关系的讨论很多,齐磊磊不但回顾了哲学史上两者之间的关系,而且从数学的集合论和函数关系论证了“相关性是一种比因果性更广泛的概念”,因果性是相关性的一种特殊状态。(2)大数据并不否定因果,只是不强调因果。自休谟对因果性进行全面怀疑和批判以来,虽然众多科学家、哲学家做出了种种努力,但仍然很难证明某两种现象或事物之间就一定存在着因果关系。休谟只是把因果性看成是人们的一种习惯,康德的《纯粹理性批判》也只是做出了一种工具主义的修补,仍然没法证明因果性的必然性。大数据没有站到彻底否定因果性的队伍中,而是承认因果性,但从相关性入手来把握。从方法论来说,相关性比较表象,只要两者之间有依随关系就认为具有相关性,因此容易被识别;而因果性则要反映事物之间内在的本质关系,这就不容易被认识和把握。大数据从相关性而不是因果性入手,是一种聪明的方法论策略。(3)大数据时代的来临,海量数据使得寻找因果关系如同大海捞针一样困难。大数据时代的数据量迅速发展到PB、ZB级别,要在这么多的数据中找到与某数据具有因果关系的另一个数据,这比大海捞针还困难。正如统计物理学面对海量的分子,研究者无法跟踪每个分子的运动轨迹以及它们之间的因果关系,只能用统计学的方法研究大量分子运动所表现出来的宏观行为和规律,而且这些规律只遵从统计规律,没有因果规律那种必然性。PB、ZB级别的数据,跟统计物理学所面对的海量分子一样,我们不可能跟踪每个数据的来龙去脉、前因后果,只能使用数据挖掘工具挖掘出数据之间所表现出来的宏观行为以及数据之间的相关关系。(4)日常生活、商业应用中,相关关系就已经足够。在许多场合,我们的确不需要知道事物之间内在的因果关系,只要知道它们之间具有依随性质的相关关系,在我们发现某现象或数据变化时,大致能够推断与之相关的另一个现象或数据也可能会发生变化。例如,我们发现,天气长期下雨会带来雨具销售的增加,而我国南方总是春雨绵绵,于是聪明的商家早已准备好了各种雨具来迎接南方雨季的到来。又如,每年大学新生开学季,都有大量的银行卡、手机卡等商业机会,于是聪明的商家早已与学校相关部门将各种卡随录取通知书投送到新生手中。对商业应用来说,最关键的是快速抓住机会,至于背后的因果关系则留给学者们去探讨。
总之,大数据主义不是要否定事物之间的因果性,并用相关性取代,只是不再过分执着于事物因果性的追求,采取从表象的、数据之间的相关性入手,发现数据规律,然后由此作为路径,再打开黑箱,寻找数据之间的因果关系。由此,相关关系就成了寻求因果关系的一把方便钥匙。当然,大数据也能够接受暂时找不到因果关系,只能找到相关关系的情况存在。
三、大数据主义者如何看待规律
在对待世界的本质及其规律性问题上,齐磊磊说,大数据主义否认世界的规律性,将世界的本质归结为混乱的数据。她把大数据主义的观点与卡特莱特为代表的新经验主义相比较,并由此来批判大数据主义者。齐磊磊对大数据的世界观和规律观的批判主要从统计学家的观点和网络科学家巴拉巴西的观点这两条路径来进行。她引用统计学家的观点说,统计样本的增加不一定能够增加统计的精确性,只有增加采样的随机性才能提高统计的精确性。她用舍恩伯格的“大数据的核心在于预测”来反证舍恩伯格主张世界混杂性的错误。此外,她引用巴拉巴西在其《爆发:大数据时代预见未来的新思维》的观点来证明世界的规律性和可预测性。
齐磊磊所批判的观点主要来自舍恩伯格,因此我们有必要先还原舍恩伯格究竟说了些什么。舍恩伯格认为,万物皆数,通过大数据技术,一切现象或行为皆可转化为数据,这就是他所说的“量化一切”。通过智能感知、万物互联等量化手段之后,现象世界就映射为一个“数据世界”,这个数据世界可以被智能设备所识别、储存、传输和计算,世界的存在变成了数据的泛在。这样,数据就成了世界的本质属性,所以舍恩伯格说“世界的本质是数据” 〔3 〕125。
舍恩伯格认为,在大数据时代,数据的获取变得十分容易,数据规模也暴增到海量,因此现在人们已经彻底告别了数据缺乏的时代,并进入到一个数据丰裕的时代。正因如此,舍恩伯格才强调,人们没必要再依靠抽样调查等手段来获取数据,可以采取一网打尽的“全数据模式”。由于数据来源多样化,数据规模海量化,因此,一方面这些数据难免鱼龙混杂,失去传统的精确性,另一方面数据的多样性也反映了世界的多样性。齐磊磊所批判的“混乱”,舍恩伯格所用的英文是messy,其本义的确有“混乱”的意思,但也有“混杂”、“复杂”之义。〔8 〕33中文版的《大数据时代》大部分时候都将其译成“混杂”,偶尔译成“混乱”。“混杂”的译法比较合适,而“混乱”则误解了舍恩伯格的原意。“只有5%的数据是结构化且能适用于传统数据库。如果不接受混杂,剩下95%的非结构化数据都无法被利用,只有接受不精确性,我们才能打开一扇从未涉足的世界的窗户。” 〔3 〕45因此,舍恩伯格提出应该允许和接受混杂性,不再过分执着于追求精确性。舍恩伯格并没有由此推断出世界就不再有规律性,相反,他正是想通过认识、接受混杂性来更好地把握世界的规律性,正如他自己所说:“接受数据的不精确和不完美,我们反而能更好地进行预测,也能更好地理解这个世界。” 〔3 〕56
〔关键词〕 大数据主义者,相关性,因果性,理论,因果,规律
〔中图分类号〕N02 〔文献标识码〕A 〔文章编号〕1004-4175(2016)06-0033-07
大数据的兴起,给传统的科学哲学带来许多新挑战,特别是对诸如科学理论的作用、因果关系、科学规律等科学哲学的核心问题提出了有别于传统的新观点。齐磊磊博士概括总结了大数据相关学者的论述,在《哲学动态》杂志发表了题为《大数据经验主义——如何看待理论、因果与规律》的重要文章 〔1 〕。她在文中提出了大数据经验主义的概念,并系统提炼了大数据经验主义的科学哲学观点,这是大数据哲学的重要提炼和概括。她认为,大数据经验主义是一种新经验主义(以下简称为大数据主义),并将其观点概括为三点:1.在科学理论问题上,大数据主义认为“理论已经终结”,否定科学理论对科学发现的作用;2.在关系到科学存亡的因果性问题上,大数据主义否定因果性的存在,提出由相关性取代因果性;3.在世界的本质问题上,大数据主义否定世界的规律性,认为世界的本质是混乱的。树立起大数据主义的靶子之后,齐磊磊进行了批判,并明确提出反对大数据主义对大数据的神化。问题是大数据主义果真要彻底否定理论、因果和规律吗?通过相关文献的研读,笔者发现,齐磊磊对大数据主义的概括过于以偏概全。为此,笔者深入大数据学者的原始文献,按照齐磊磊所分的理论、因果、规律三个维度与其商榷,试图还原大数据主义的真相,以便让人们有机会了解大数据主义者的真实观点究竟是什么。
一、大数据主义者如何看待理论
齐磊磊将大数据主义的第一个特征概括为对理论的全盘否定。她认为,在对待理论的态度上,大数据主义持彻底否定的态度,认为在大数据时代,只要数据就够了,理论成了多余,甚至彻底无用。齐磊磊得出这个结论的依据主要有三个,一是大数据前期的代表人物安德森的观点,二是畅销书《大数据时代》的作者舍恩伯格的观点,三是哈尔滨理工大学孙博文教授的观点。孙博文教授的观点是在一次会议上提出的,笔者没有参加这次会议,所以无从考证其观点的原意。下面我们主要来看安德森和舍恩伯格的观点。
安德森是美国《连线》杂志的主编和主要撰稿人,齐磊磊引用的观点出自安德森于2008年6月23日发表在《连线》杂志上的文章:《理论的终结:海量数据使科学方法变得过时》,不过齐磊磊没有找到并阅读原文,只是转引了舍恩伯格在《大数据时代》一书中所引用的部分观点。作为大数据时代的预言家,在大数据时代来临的前夜,安德森就预感到了大数据的浪潮已经惊涛拍岸,并提前预言大数据对我们传统科学方法将带来怎样的革命。安德森一开始就用统计学家乔治·博克斯在30多年前的抱怨:“所有的模型都是错的,虽然有些很有用”。〔2 〕安德森认为,传统科学发现的方法都是从理论假设出发,建立模型,然后用经验检验模型的正确性。但这种猜想性的模型往往出错,而海量数据的出现改变了这种科学知识的生产方式,Google等大数据公司不再首先从理论假设、模型出发,而是从数据出发,从海量数据中归纳、提炼、发现其中的规律。安德森提出这些观点是有前提的,首先是海量数据,即大数据的出现;二是他谈论的主旨是知识发现的问题;三是他所说的“理论的终结”只是针对知识发现的出发点而言。他认为,我们已经进入了PB(Petabytes)时代,即现在所称的大数据时代,数据资源像洪流一样爆发、增长。面对PB级别的大数据,小数据时代的“假设—模型—检验的科学方法变得过时了”。“现在有更好的方式。允许我们这么说:相关性就足够了。我们可以停止寻找模型。我们可以对数据进行分析,而不需要预先假设它会显示什么。我们可以把数字扔进世界上从未见过的最大的计算集群中,并让统计算法找到科学无法找到的模式。” 〔2 〕这就是说,在大数据时代,知识的发现可以从数据开始,不再需要预先做出理论的假设。所以,安德森所说的“理论的终结”不是说大数据时代就不需要理论,不再有理论,只是科学发现不再是从理论出发,而是从数据出发。他说:“大量的可用数据,以及处理这些数据的统计工具,提供了一个全新的方式认识世界。通过相关关系而不是因果关系,即使没有清晰的模型、统一的理论,甚至没有任何机理解释,科学依然能够取得进步。” 〔2 〕因此,安德森并不是全盘否定科学理论,只是说在大数据时代,科学发现可以从数据开始,而不是必须从理论假设出发。
齐磊磊认为,舍恩伯格的观点与安德森一致。其实,舍恩伯格虽然引用了安德森的观点,并且也同意安德森从数据及其相关性出发来进行科学发现,但在对待理论的态度上,舍恩伯格没有安德森极端,而是有所保留。舍恩伯格虽然也认为,在大数据时代,从海量数据中发现相关关系比寻找因果关系更重要,科学发现更多地依赖于数据,而不是预设的普遍规则,应尽量让数据自己说话。在大数据时代,“所有的普遍规则都不重要了……重要的是数据分析,它可以揭示一切问题。”但是,他并不完全否定理论在大数据中的作用,因为“大数据是在理论的基础上形成的”,例如大数据也要使用统计学理论和计算机理论。在数据的收集、处理、解释等环节中也要用到相关理论,他在书中明确告诫:“大数据时代不是理论消亡的时代,相反地,理论贯穿于大数据分析的方方面面。” 〔3 〕93因此,齐磊磊将舍恩伯格也归入理论终结论者是不太客观的。
科学发现模式问题是科学哲学极其重要的问题,历史上就有“科学始于观察”还是“科学始于问题”的争论。大数据来临前夕,美国计算机专家、图灵奖得主吉姆·格雷(Jim Gray)就敏锐地认识到大数据对科学发现的意义。他在2007年的一个发言中,首次提出了随着大数据的兴起,科学研究中出现了第四种研究范式。〔4 〕XViii他对历史上的科学研究范式,即科学发现的模式做了系统的分类,认为历史上曾出现过三种范式:经验范式、理论范式和计算范式。经验范式是科学发现的第一种范式,也是历史最久的范式,它的逻辑起点是人类的观察或实验,然后用归纳法将观察或实验数据归纳、提炼出科学理论,这种范式认为科学始于经验。逻辑实证主义就是这种主张的代表。逻辑实证主义主张“科学始于观察”,并主张归纳法作为其基本方法。随着逻辑实证主义被波普尔等后来者多方批判,其主张的发现模式逐渐被波普尔所主张的“科学始于问题”的发现模式所取代,这就是第二种范式,即理论范式,它出现于第一次科学革命之后,此时的科学家主要从已有理论出发,发现问题,然后进行经验检验,这就是波普尔的“猜想—反驳”模式。波普尔最重要的依据是观察渗透理论,他认为没有纯粹的客观观察,科学发现都因我们先有疑问、问题、猜想(P),然后提出相应的尝试性的假设(TT)或模型,再进行观察或实验(EE)以检验假设或模型的正确性,这就是波普尔著名的 “猜想—反驳”科学发现模式(P1-TT-EE-P2)。第三种范式出现于20世纪50年代计算机发明之后。由于问题的复杂性,我们无法直接观察或实验,只能首先建立模型,然后使用计算机进行模拟、仿真或计算,通过仿真、计算来模拟真实场景以达到研究的目的。格雷认为,随着海量数据的出现,科学发现模式发生了重大变化,在前三种科学发现范式的基础上出现了第四种范式,即数据密集型科学范式。数据密集型科学范式的逻辑起点是大数据,它从大数据出发,通过数据之间的相关关系发现大数据所呈现出来的数据规律。由大数据所构成的数据世界成为数据密集型科学研究的直接对象,数据挖掘是大数据时代科学研究最重要的方法,数据规律是数据密集型科学最重要的成果。当然,格雷也特别申明,第四种范式与前三种范式并列存在,相互补充,共同构成了科学研究的范式体系,它绝不是要取代前三种范式,只是作为前三种范式的重要补充和完善。格雷对科学研究范式的分类及其对第四种范式的论述,比较充分地表明了大数据主义者对经验、理论和数据的态度。 英国韦斯特敏斯特大学的David Chandler在论文《没有因果的世界:大数据与后人类时代的来临》中认为,大数据并不是要取代因果关系,它只是带来了新的归纳方法和新的知识生产方式。〔6 〕牛津大学互联网研究中心的Josh Cowls和Ralph Schroeder在论文《因果性、相关性及社会科学研究的大数据》中,通过访谈26位学者,详细论述了大数据时代的因果性与相关性的关系。〔7 〕受访者认为,理论终结及取代因果的说法有点过分夸张,但大数据对他们的影响的确很大,它使得社会科学研究所需数据的采集、处理变得容易。至于相关性和因果性问题,这取决于何种类型的研究:如果是商业应用之类的研究,找到相关性就够了,但社会科学理论研究则仍然需要因果性。
归纳起来,大数据主义对相关性与因果性的态度是:在大数据时代,由于数据的暴增,寻找数据间的相关性比因果性更重要,大数据主义承认事物的因果性,但更应该把握事物的相关性。齐磊磊说大数据主义否认因果性的存在,它已被相关性完全取代,这是对大数据主义的误解或误读。大数据主义为什么强调相关性,弱化因果性呢?我们可以从四个方面来说明。(1)就相关性与因果性的关系来说,相关性更广泛,因果性更严格,因果性是相关性的一种特例。在哲学史上,对这两者关系的讨论很多,齐磊磊不但回顾了哲学史上两者之间的关系,而且从数学的集合论和函数关系论证了“相关性是一种比因果性更广泛的概念”,因果性是相关性的一种特殊状态。(2)大数据并不否定因果,只是不强调因果。自休谟对因果性进行全面怀疑和批判以来,虽然众多科学家、哲学家做出了种种努力,但仍然很难证明某两种现象或事物之间就一定存在着因果关系。休谟只是把因果性看成是人们的一种习惯,康德的《纯粹理性批判》也只是做出了一种工具主义的修补,仍然没法证明因果性的必然性。大数据没有站到彻底否定因果性的队伍中,而是承认因果性,但从相关性入手来把握。从方法论来说,相关性比较表象,只要两者之间有依随关系就认为具有相关性,因此容易被识别;而因果性则要反映事物之间内在的本质关系,这就不容易被认识和把握。大数据从相关性而不是因果性入手,是一种聪明的方法论策略。(3)大数据时代的来临,海量数据使得寻找因果关系如同大海捞针一样困难。大数据时代的数据量迅速发展到PB、ZB级别,要在这么多的数据中找到与某数据具有因果关系的另一个数据,这比大海捞针还困难。正如统计物理学面对海量的分子,研究者无法跟踪每个分子的运动轨迹以及它们之间的因果关系,只能用统计学的方法研究大量分子运动所表现出来的宏观行为和规律,而且这些规律只遵从统计规律,没有因果规律那种必然性。PB、ZB级别的数据,跟统计物理学所面对的海量分子一样,我们不可能跟踪每个数据的来龙去脉、前因后果,只能使用数据挖掘工具挖掘出数据之间所表现出来的宏观行为以及数据之间的相关关系。(4)日常生活、商业应用中,相关关系就已经足够。在许多场合,我们的确不需要知道事物之间内在的因果关系,只要知道它们之间具有依随性质的相关关系,在我们发现某现象或数据变化时,大致能够推断与之相关的另一个现象或数据也可能会发生变化。例如,我们发现,天气长期下雨会带来雨具销售的增加,而我国南方总是春雨绵绵,于是聪明的商家早已准备好了各种雨具来迎接南方雨季的到来。又如,每年大学新生开学季,都有大量的银行卡、手机卡等商业机会,于是聪明的商家早已与学校相关部门将各种卡随录取通知书投送到新生手中。对商业应用来说,最关键的是快速抓住机会,至于背后的因果关系则留给学者们去探讨。
总之,大数据主义不是要否定事物之间的因果性,并用相关性取代,只是不再过分执着于事物因果性的追求,采取从表象的、数据之间的相关性入手,发现数据规律,然后由此作为路径,再打开黑箱,寻找数据之间的因果关系。由此,相关关系就成了寻求因果关系的一把方便钥匙。当然,大数据也能够接受暂时找不到因果关系,只能找到相关关系的情况存在。
三、大数据主义者如何看待规律
在对待世界的本质及其规律性问题上,齐磊磊说,大数据主义否认世界的规律性,将世界的本质归结为混乱的数据。她把大数据主义的观点与卡特莱特为代表的新经验主义相比较,并由此来批判大数据主义者。齐磊磊对大数据的世界观和规律观的批判主要从统计学家的观点和网络科学家巴拉巴西的观点这两条路径来进行。她引用统计学家的观点说,统计样本的增加不一定能够增加统计的精确性,只有增加采样的随机性才能提高统计的精确性。她用舍恩伯格的“大数据的核心在于预测”来反证舍恩伯格主张世界混杂性的错误。此外,她引用巴拉巴西在其《爆发:大数据时代预见未来的新思维》的观点来证明世界的规律性和可预测性。
齐磊磊所批判的观点主要来自舍恩伯格,因此我们有必要先还原舍恩伯格究竟说了些什么。舍恩伯格认为,万物皆数,通过大数据技术,一切现象或行为皆可转化为数据,这就是他所说的“量化一切”。通过智能感知、万物互联等量化手段之后,现象世界就映射为一个“数据世界”,这个数据世界可以被智能设备所识别、储存、传输和计算,世界的存在变成了数据的泛在。这样,数据就成了世界的本质属性,所以舍恩伯格说“世界的本质是数据” 〔3 〕125。
舍恩伯格认为,在大数据时代,数据的获取变得十分容易,数据规模也暴增到海量,因此现在人们已经彻底告别了数据缺乏的时代,并进入到一个数据丰裕的时代。正因如此,舍恩伯格才强调,人们没必要再依靠抽样调查等手段来获取数据,可以采取一网打尽的“全数据模式”。由于数据来源多样化,数据规模海量化,因此,一方面这些数据难免鱼龙混杂,失去传统的精确性,另一方面数据的多样性也反映了世界的多样性。齐磊磊所批判的“混乱”,舍恩伯格所用的英文是messy,其本义的确有“混乱”的意思,但也有“混杂”、“复杂”之义。〔8 〕33中文版的《大数据时代》大部分时候都将其译成“混杂”,偶尔译成“混乱”。“混杂”的译法比较合适,而“混乱”则误解了舍恩伯格的原意。“只有5%的数据是结构化且能适用于传统数据库。如果不接受混杂,剩下95%的非结构化数据都无法被利用,只有接受不精确性,我们才能打开一扇从未涉足的世界的窗户。” 〔3 〕45因此,舍恩伯格提出应该允许和接受混杂性,不再过分执着于追求精确性。舍恩伯格并没有由此推断出世界就不再有规律性,相反,他正是想通过认识、接受混杂性来更好地把握世界的规律性,正如他自己所说:“接受数据的不精确和不完美,我们反而能更好地进行预测,也能更好地理解这个世界。” 〔3 〕56