数据在历史中的运用

来源 :西部学刊 | 被引量 : 0次 | 上传用户:jxjc_2008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:徐子沛先生《数据之巅》一书以数据为轴,在梳理了美国数据文化和大数据发展历史的同时揭示了在现代文明进程中的那只无形的数据之手。该书将数据与人类文明的发展以及民主体制的演化相结合,为历史研究拓展了新的思路。将数据文化作为一种新的视角来深入发掘美国历史中的细节,这对其他国家的历史研究也具有很大的借鉴意义。
  关键词:大数据;美国史;人口普查
  中图分类号:F49    文献标识码:A 文章编号:CN61-1487-(2019)15-0141-04
  大数据在当今这个信息化的社会中占有着很重要的地位。在美国,“大数据”这一概念并不仅仅局限于大量的数据和处理大量数据的技术,或者所谓的“4个v”之类的简单的概念,而是涵盖了人们在大规模数据的基础上可以做到的事情,而这些事情在小规模的数据上是无法实现的①。从这个角度来看,数据表示的是过去,表达的却是未来。从小数据之历史到大数据的崛起,《数据之巅》全书一共分为了两个部分。在第一部分,以美国数据文化的发展历史为线索介绍了小数据的发展历程。作者将美国历史的第一个百年分成了三个时代,分别为初数时代、内战时代和镀金时代,后两百年的历史被划分为了进步时代、抽样时代、开放时代和大数据时代。不同的是,在第一个一百年中三个时代的划分是有起点与终点的,但是在后一百多年的历史中作者认为这些时代或多或少的对现在仍有一些影响,所以仅有起点而并没有终点,在本文中会抽取文章中一些典型例子来做介绍。
  一、小数据之历史
  (一)数据与分权
  人口普查无疑是整个初数时代的核心。无论古今中外,每个国家最基本的要素都是其国民和土地,因此,“点人头”一直是一个国家最基本、最原始、规模最大的社会活动。作者以1787年制宪会议中的一些问题为切入点,讲述了美国的建国者如何构建与运用数据分权的方法来解决问题。
  作者以“伟大的妥协”为开头,迅速切入到美国每十年一次的人口普查。与其他的国家和地区的人口普查不同,美国的这种人口普查模式可以算是一种创举。作者将美国的人口普查与中法两国的人口普查相比对。其他的国家和地区的人口普查一般是为了征税或实施社会控制,所以民众的内心会产生很多担忧和抗拒的情绪,这种担忧甚至存在于地方政府之中。比如1753年英国计划展开的人口普查就因各地诸侯抵抗而流产。不同的是美国的人口普查是一种数据分权的体现,将人口与国家利益的划分相结合,多报人口意味着更多的税务和义务,而隐瞒人口则会失去相应的关乎权利的席位划分。所以美国的人口普查受到了广大民众和地方政府的大力支持和宣传,因而取得了显著的成果。
  此外,人口普查及数据问题对第一届众议院选举产生了重大的影响力,首先围绕统计什么、不统计什么产生了争论。其次,在第一次人口普查后,“粗放”的数据也产生了一定的问题。最突出的问题就是众议院到底应该设多少,即一个席位究竟应该代表多少人。后来,汉密尔顿和杰斐逊分别提出了余数法和除数法来解决这一数学难题,华盛顿以汉密尔顿的余数法违宪为由行使了第一次总统否决权,选择了杰斐逊的除数法(因宪法规定席位代表的人数不应低于30000人,而新罕布什尔州的每席代表人数为28364所以汉密尔顿的余数法违宪)。
  (二)内战时期的“灯塔”
  到了内战时期,人口普查依旧拥有举足轻重的地位。美国历史学家罗伊·尼科尔斯(1896-1973)曾说过:“人口普查已经成为南方最大的敌人。”作者认为在1830-1870这个阶段美国的数据文化进入了一个特殊的历史阶段,数据在南北双方激烈的竞争之中扮演了“灯塔”般的重要角色。这一段时期的人口普查范围在逐渐地扩大,慢慢超出人口的范畴,涉及精神病患者、文盲等各个方面,这些新的数据也参与到了南北双方激烈的辩论之中。作者花了很大的笔墨透过“向大海进军”这一事件来讲述数据在战争中的重要作用。在1860年林肯上任以后,人口普查又因为分肥制回到了肯尼迪的手中,因战争的需要,也催生了人口普查部门的创新,绘制了大量的地图和数据。谢尔曼利用大量的数据分析最终决定切断自己的后方补给,自己將这次行动称为“向大海进军”。战争胜利后谢尔曼给肯尼迪发去了感谢信,信中说道:“在这场战争濒临结束时发生的种种事件证明,您给我提供的各种统计表格和数据价值巨大,没有它们,我不可能完成任务,这些任务,对世界上最敏捷、最有经验的不对而言,都是像迷宫一样的难题。”在多年之后谢尔曼回忆往事之时还总结说:“历史上没有任何一次行军远征,曾经建立在像这次一样完善和肯定的数据之上。”
  (三)镀金时代的迅猛发展
  镀金时代是数据发展与爆发十分集中的一个时段。路易斯·芒福德曾说:“在一个半世纪前所有伟大的发明背后,绝不仅仅是技术本身的长期进步,同时还有思维方式的转变。”美国数据观念的转变就从加菲尔德的用数据预测开始,他认为数据是社会规律的载体,此外,加菲尔德还提出了要对普查结果保密。这也为普查工作开启了有关隐私权的话题,虽然隐私权的正式确立是很久之后的事情,但加菲尔德的这一举措也可谓深谋远虑。
  随着人口的不断增长,人口普查需要的数据处理量逐渐增大,最可行的解决方法就是推动技术创新。1888年霍尔瑞斯制造出了第一台打孔卡片制表机,使得本将无法按期完成的每十年一次的人口普查得以继续顺利进行。之后霍尔瑞斯建立了自己的公司,并于1911年与其他公司合并成为了后来的国际商用机器公司也就是今天的IBM。
  面对镀金时代光鲜外表下的各种危机与乱象,改良派认为应该依靠调查事实和专业的分析来解决问题,专家、科学和数据成为了这个时代的主导。1908年,数据开始进入美国法庭。布兰代斯仅两页的法律分析援引了一百多页的数据和统计来证明劳动时间过长对女性健康的危害,这种诉讼方法后来被称为“布兰代斯诉讼方法”。在为黑人儿童争取平等择校的布朗诉教育委员会案也采用了这种方法,最终获得了胜利。   这一时期数据不仅仅用在法律案件中,还用来做重大决策,这种方法叫做成本收益分析,如果收益/成本>1,证明收益大于成本,且该比率越大,可行性越高。在应用于如水利工程等方面时,这种方法不断经受着各种争执,也在不断的完善,但在这里涉及到一个关于道德的问题,如何给生命定价。从20世纪10年代到70年代,基于生命价值的量化一直在学术圈、商业界和政界悄悄的进行,直到70年代福特公司卷入了“平托”风波才显现出来,奇怪的是,经历这种风波之后的成本分析方法却越发深入的应用到政府决策当中。1981年里根总统颁布第12291号行政命令,要求联邦政府的各个部委在推出重大管制规定的时候都必须进行成本收益分析。量化成为了整个进步时代的主流。
  美国的政治制度与统计科学的相互影响不仅仅表现在“用数据分权”这一点上,也体现在了美国的选举制度上,这一新的统计革命时代被作者成为“抽样时代”。对于担任新总统人选的预测起于1824年,在媒体的推波助澜之下,这种调查和预测逐渐成为大众政治生活中的重要内容,被称为民意调查。从单纯的讲求数量大到科学的抽样技术的应用,民意调查不再仅仅局限于总统大选中,也应用到了社会生活的许多方面之中,进一步的、抽样这一科学的统计方法由政界起始逐渐推广到了企业生产之中,并起到了极其重要的作用。
  二、大数据的崛起
  随着统计科学的发展和电子数据的累积,人类迈进了大数据的时代,开放成为了大数据时代的主旋律。奥巴马在2010年9月23日在联合国大会上的演讲中提到:“开放的经济、开放的社会和开放的政府,是人类社会之所以能够进步最深厚、最强大的基础。”②作者认为就美国的数据开放而言,其最早的表现形式是信息自由、数据公开,是一种典型的内开发。美国的信息自由运动起源于民间对政治知情权的争取。1953年,在新闻界的强烈要求下,国会开始草拟《信息自由法》,直至1966年才勉强通过。即便通过,执行效果也差强人意,终于在新闻界的抗议和批评的浪潮中国会于1972年提出了《信息自由法修正案》。该修正案规定,如果政府拒绝民间关于信息公开的要求,任何公民都有权提起司法诉讼,而法院才拥有信息是否公开的最终裁判权,由此美国政府的信息公开驶入正轨。
  随着20世纪70年代环境保护运动的兴起,这些不断公开的数据成为了制衡的另一个标准,内开放进入了新的发展阶段。通过公开的数据,将企业置于社会公众的监管之下,有效的监督了环境污染、产品质量、食品卫生、药物安全等各行各业。进一步地对美国国会议员的财产进行监督,要求财产公开,财产公开的这种诉求成为后来“数据开放”的原型。
  但此时美国的数据呈现一种分散的状态,普查局和州政府所拥有的不同种类的数据没有办法得到有效的沟通。“9·11”事件从另一个角度上推动了这个融合进程的发展。因在悲剧现场的第一时间,国家统计部门无法为最高决策者提供准确的伤亡和财产损失数据,这种数据之痛推动了LEND(工作单位和家庭住址的纵向动态系统)的进展。LEND不仅数据分析的粒度细致,而且提供以时间为跨度的纵向数据分析,这个系统的整合与开发起初完全是为了政府部门使用,后来在“数据应該服务于民”观点的引导下,普查局为LEND开发了一个基于地图的互动式界面On The Map,受到了美国社会的欢迎。将数据公开作为一个过渡,紧接着内开放进入了数据开放的时代,将数据的所有权交还社会。数据对于经济发展和社会生活具有重大的服务作用。
  作者认为,大数据由三个层面构成,首先是代表人类保存数据能力增强的摩尔定律,其次是导致人类生产数据增多的社交媒体,最后是通过数据挖掘使得人类使用数据的能力增强。在大数据的前提下,随着计算型社会的兴起,人们在各个领域的研究出现了很多新思路,一些精细的、微妙的、曾难以捕捉的信息上升成为显性的知识。而这些知识赋予了机器智能,为人类提供自动化服务,这就是所谓的数据之巅。也正是由此,得以进入智能型社会。由此回到了作者反复强调的一点“数据,正在成为这个世界最重要的土壤和基础”。
  三、结论
  《数据之巅:大数据革命,历史现实与未来》一书的作者以美国的数据发展的历史与文化为例,揭示了数据对于当今世界的重要性。数据在美国的社会文化与生活中占据了一个十分独特又不可或缺的地位。从建国初期的用数据分权,到南北战争时期证实黑人自由就会发疯的言论是来源于统计失误,并运用到军事中,再后来加菲尔德将统计变成一个专业的部门为政府和人民服务,随之增加的数据处理的需求拉动了技术上的创新,成为IBM成功的第一步,紧接着在通过量化提高产品质量,分析处理劳资冲突并成为黑人与妇女争取权益的一个科学有利的证据,随后产生的抽样技术应用到民意调查、质量监管,成为美国人民生活中不可或缺的一个关注点。直到现在不断加大的数据开放力度,可以说,在美国建国两百余年的历史中,数据一直都在。这一整条清晰明朗且独特的脉络使美国成为揭示数据重要性的一个典型的标本。与传统的美国史所讲述的内容有所不同,这本书的记述更偏向于美国统计学史,在梳理了美国数据的发展历程之余,更为重要的是在这个信息化高速发展的今天为我们历史研究提供了很多新思路、新视野与新方法。就当下这种多学科交叉,相互借鉴的今天,我们要学会借鉴其他学科一些东西来弥补自身,而不是仅仅局限于传统的历史研究方法之中,思考别的学科的先进的概念是否可以被借鉴,思考别的学科的研究方法是否可以移植与应用,别的学科的研究成果对于解释本学科的概念是否有价值或者是否可以当作证据。大数据也正越来越多的应用于历史研究中,在大数据的环境下可以通过建立数据库、信息中心等多种方式,将繁杂的历史信息加以整合,很多我们容易忽略的,或者一些微小的联系得以展现在眼前。此外,在美国现当代史的研究中,数据更是起到了十分关键的作用,正如书中作者所言,要讲科技符号转化为文化符号,在建立起这样的数据文化之后,我们才能更好的融入大数据之中,整合数据,更好的利用数据。   但從历史专业书籍的角度来看,这本书就略显不足。数据对于美国历史来说固然像一根隐形的脉络贯穿其中,但仅仅用数据这一根线来贯穿却略显单薄,不过基于作者的主旨是在于以此为例讲述大数据背景下应该将科技符号转化为文化符号,那么这一点上是可以理解的。作者由于并非历史专业的学者,就梳理美国数据史与数据文化的发展历程方面所做的贡献是值得肯定的。作者为我们所提供的新的研究方法与新的概念的普及也是值得我们深入思考的,不过就严密的史学逻辑的论证和证据的选择上是我们历史写作时需要格外谨慎注意的地方。对于历史写作而言,材料是第一性,对于材料而言,真实性与合理性又是重中之重。由此,在做历史论证的时候,应该客观公正的选取真实合理且用之恰当的材料,不能为了论证自己的观点来选取材料,或者有偏向性的解读材料。作者所提供的例子在梳理整个历程时都是十分典型的,也是十分经典的,但用于论证数据文化作为一只无形的手对美国文明进程的推动作用却不够严谨。无论是在权利分配、推动法制建设,还是在一些重要且典型的诉讼案(如与合理化妇女工作时间或与废除黑人种族隔离的相关案件)所取得的成功上,仅仅强调数据的作用是远远不够的,在这些材料的解读上也是十分片面的。这不仅会容易使读者仅仅关注于数据而产生误区,也使得这些用来论证的证据看起来像是“精挑细选”过的。任何一个概念的群落都是有十分核心典范的个体和边缘个体,这篇文章选取的便都可看作核心典范的个体。但每一个概念的群落的核心典范的个体都可以说明这个观点的话,那么这个建构体系必然是存在问题的。
  注 释:
  ①透视美国大数据爆发全景[J].互联网周刊,2013.1.
  ②英文原文为:〝Each country will pursue path rooted in the culture of its own people.Yet experience shows us that history is on the side of liberty;that the strongest foundation for human progress lies in open economies,open societies,and open governments〞—Remarks to the United Nations General Assembly, Obama,September 23,2010.
其他文献
摘要:侵华日军日记是记录战争直接参与者、施害者具体心态的第一手资料。以原日本侵华士兵山本武日记为例,他的战争书写有这么几个方面:(一)日军沿途的“征发”暴行;(二)对待俘虏、平民的残暴行为;(三)士兵的战场心境。“征发”是为掠夺资源,“以战养战”,并时有个人借机发作;对待俘虏、平民的残暴行为是为求安,却得到的只是威慑下的和平和安宁;日军士兵们虽然对战争极度狂热,但也时时表现出内心的不安、犹豫与矛盾
期刊
摘要:高校艺术生具有普通大学生和艺术特长生的双重属性,因培养模式和培养周期的特殊性,他们有着比普通文理类学生更大的学习和经济压力。但是,从国家的精准资助工作的目标与要求看来,目前的艺术专业学生精准资助工作存在认识偏差、精准度低、管理缺位等问题。为了改进这项工作,建议构建政府、学校、家庭多主体联动的工作方法;设置差异化的评选过程与标准;加强对受助学生的诚信、感恩、励志教育,真正实现扶贫与扶志扶智相结
期刊
摘要:通过问卷式调查、结构式访谈的方法,从经济收入、家庭生活、居住、交通、医疗、休闲娱乐、环境等八个方面分析了湖北Y村居民的生活质量。结果表明:湖北Y村居民普遍认为生活质量与前两年相比有所提高;收入有所增加,但增幅小,满意度较低;在家庭生活方面,存在最大的问题是用水,自来水通达率低且水质较差;居住、交通方面表示满意;看病就医方面满意度依然不高;休闲娱乐基础设施较差,村民娱乐活动方式单一。建议:第一
期刊
摘要:长期以来,由于我国宪法存在实质性实施机制的缺失和公民基本权利的宪法保障不足等问题,我国宪法监督机制一直都没有得到很好的落实,对于宪法实施的制度构建可以从司法领域展开,为了规避宪法司法化与我国根本政治制度及国家机关的权力分配的矛盾,可以将宪法司法化分为宪法诉讼和合宪性审查;宪法司法化在我国应当避重就轻,从保护公民基本权利的宪法诉讼展开宪法的实质性实施;涉及公民基本权利的纠纷只有经过穷尽救济原则
期刊
摘要:汉语诗歌中的“诗”和“歌”从来都不分家。自《诗经》以来,汉语诗歌具有了“诗”“乐”互动的特点,并成为了儒家“诗教”传统的一部分。美国大诗人庞德的汉语诗歌英译完美地传达了“诗”和“乐”的互动,从而较好地在目标语中实现了汉语诗歌的教化功能,值得中国译者借鉴。  关键词:汉诗英译;“诗”“乐”互动;教化;庞德  中图分类号:H059;I222 文献标识码:A文章编号:2095-6916(2020
期刊
摘要:公元10世纪前叶至13世纪中叶,前后300多年间,宋与辽、宋与金的战事很多,相互之间的交流往来极为频繁,宋朝官员的出使记也十分丰富;这些出使记是宋代游记的重要组成部分,其内容富含辽、金两朝的人口、农业种植、畜牧业等农事信息。仔细研读,可以发现宋人出使记中的农事资料不仅可以证史,而且可以弥补正史记载之不足,是研究辽、金农业历史的珍贵史料,较为集中地体现了古代游记的农史研究价值。  关键词:出使
期刊
摘要:大数据时代下对公民个人信息的收集、应用与日俱增,计算机数据中个人信息的商业价值属性日益凸显,新法益的产生与旧法益保护的滞后相互碰撞,对当前这种重信息网络轻数据安全的格局发起了挑战。值得关注的是,《刑法修正案(九)》虽对侵犯公民个人信息类犯罪进行了修改,降低了行为入罪的门槛,但没有明确将大数据有关的网络信息数据内容进行规定,而对于信息保护的全面性依然没有实现。为此建议:国家针对数据保护单位立法
期刊
摘要:随着二孩政策的落实,多语言学习的环境影响等因素,我国的少儿英语启蒙教育也面临新形势。目前少儿英语启蒙教育存在专业师资缺乏、教师流动性大、水平良莠不齐等现实问题,针对少儿英语启蒙师资院校的问卷调查告诉我们,虽然大部分学生对英语启蒙教育认同度较高,但存在专业差异和性别差异。建议师资培养院校多开展实践活动,引导学生选修第二专业,媒体提供相应的支持。关键词:少儿英语;启蒙教育;师资;职前教育中图分类
期刊
摘要:当代大学生是社会主义现代化事业的后备军,是中国特色社会主义事业的接班人。重视大学生的廉洁教育、品行教育事关社会主义事业的健康发展。但是,目前大学生廉洁教育存在动力不足、认识模糊、内容不系统不完善、理论与实践分离等问题。改变这种现状的方法,首先应该是促进教育内容的系统化;其次是创新其教育方法,激发学生兴趣,使理论与实践相结合。  关键词:大学生;廉洁教育;廉洁文化  中图分类号:G641 文
期刊
摘要:梳理了此前学者有关花婆研究的文本特别是异文,认为其较少关注花婆的形象被民众作为一种口头表演时如何被塑造。对柳州市某村进行田野调查,观看花婆传说故事演述,并与演述者访谈,发现其对花婆形象的塑造包括外貌的描述,将花婆传说剥离生育主题,建构正义女神形象,使故事“在地化”,增加了传说的真实性。认为花婆形象由传统的生育女神逐渐过渡为正义女神,这与社会发展生育对于大多数人不成为问题有关。演述者希望将花婆
期刊