论文部分内容阅读
人文泛指人类社会的各种文化现象,信息是联系物理世界与人类认知的重要桥梁和纽带,人文与信息有着天然的联系。信息技术的飞速发展为社会进步做出了巨大贡献,已深入到社会生活的方方面面。它不仅拓展了人类认知的疆域,也改变了人类对于物理世界的认知模式,更进一步影响、渗透到传统研究视野下的社会学科,并形成一个文理工交叉的学科——人文计算,衍生出数字人文的概念。
人文计算(Humanities Computing或Computing in the Humanities)是一个新型的将现代信息技术深入应用于传统人文研究的跨学科研究领域。近年来,欧美发达国家已经建立了数字人文(Digital Humanities)研究中心,人文计算已经有了重要的创新成果并广泛服务于社会,取得了良好的社会效益。为了更好地服务社会发展,信息技术需要与人文社会学科更深入地结合,为相关研究注入新的活力。特别是利用信息技术手段变革传统的既有研究模式,从而在广度和深度上增强对人文社会学科研究内容的认知。这一发展趋势既是信息技术服务社会生活的需要,也是人文社会学科适应信息时代变化的必然,因此具有重要的研究意义。
我国作为高速发展的新兴经济体,在经济建设方面已经取得了巨大成就。推动和强化人文计算研究,将催生出有中国特色的创新研究成果,对于繁荣我国的科学技术事业、提升我国的科研实力具有重要的现实意义。
人文计算概述
人文计算是针对计算与人文学科之间的交叉领域进行研究、学习以及创新的一门学科。它的研究范围从在线文档处理到大规模文化数据的挖掘,研究内容涵盖经过数字化加工和直接数字化产生的数据资源以及传统人文学科(例如历史学、哲学、语言学、文学、艺术、考古学、音乐和文化研究等)的方法。它试图通过数据可视化、信息检索、数据挖掘、统计分析、文本挖掘以及数字出版等计算方式为这些研究提供多种工具。
人文计算的一个重要内容是,将信息处理技术系统地融合到人文研究的活动中。如同当代经验社会科学研究对于计算技术的利用一样。基础的信息技术已经大量应用到传统的艺术和人文学科中,包括文本分析技术、地理信息系统技术、通用协同工作技术、交互式游戏和多媒体技术等。
近年来,与人文计算研究内容相近的计算社会学蓬勃发展,取得了丰富的研究成果,特别是在社会舆情、信息传播、社会网络、人工社会等方面,有些研究成果已经应用于实际的社会学研究和社会管理中。
2009年2月,15位来自社会科学、物理学、信息学等领域的学者联合在美国《科学》周刊发表题为《计算社会学》(Computational Social Science)的文章,分析了在广泛使用和多样应用网络背景下产生的、以发掘行为和组织规律为目的的研究问题和已有基础,以及学科发展的机遇与挑战。该文提出了计算社会学的概念,认为人们各种社会行为都以数据的形式留下了记录,而这些数据中蕴含的关于个人和群体行为的规律,可能足以改变人类对个人生活、组织机构乃至整个社会的认知。与传统社会科学通过问卷调查形式获得的数据不同,计算社会学可以借助各种新技术获得长时间、连续、大量人群的各种行为和互动的数据。这些更为全面客观的数据为研究动态的人际交流、大型社会网络的演化等方面的问题打下了坚实的基础。
另据2012年11月美国《时代》周刊报道,奥巴马团队在2012年美国总统大选中利用计算社会学研究成果,通过对各州选民投票倾向样本数据的建模,每晚用云计算平台模拟6.6万次大选,并于每天上午获得计算结果,了解在这些州胜出的可能性,从而针对性地分配资源,对奥巴马最终赢得大选起到重要作用。
虽然经常将社会学和人文学归在一个大的学科领域,然而从研究内容上看,计算社会学有特定的研究内容和研究方向:在社会问题和计算技术之间架起桥梁,从基础理论、实验手段及领域应用等各个层面突破社会科学与计算科学交叉借鉴的困难。因此,计算社会学和人文计算在研究内容上存在明显的区别:前者侧重于社会学和社会管理的研究范畴,后者则侧重于信息技术与人文研究的结合。
人文计算的繁荣发展
人文计算在世界范围内呈现蓬勃发展之势。
表现之一,不少学术机构已建立了人文计算研究单位。其中历史较长的有美国乔治梅森大学(George Mason University)于1994年成立的历史与新媒体中心(Center for History and New Media),该机构的名称反映出其研究方向侧重于历史研究与新兴媒体的结合。同样,很多人文计算机构都是由原先类似的单位演变而来的。在亚洲,日本立命馆大学设立了日本艺术与文化之数字人文中心(Digital Humanities Center for Japanese Arts and Cultures);中国台北的台湾大学建立了数位典藏研究发展中心即数字人文研究中心。
表现之二,研究单位招收人文计算专业的研究生,组建人文计算实验室成为普遍现象。以美国为例,斯坦福大学有斯坦福人文实验室(Stanford Humanities Lab)、加州大学洛杉矶分校有数字人文中心;哈佛大学在2008年推出数字人文先导计划(Digital Humanities Initiative),2010年再进一步成立“人文2.0”(Humanities 2.0)实验室。他们面向校内的人文院系,发展数字化的研究工具、建立讨论平台或是提出跨领域的合作计划。
表现之三,定期举办各类人文计算学术会议。国际上具有较大影响的学术会议是一年一度的数字人文年会。此年会的前身是文学与语言学计算学会(Association for Literary and Linguistic Computing,ALLC)和计算与人文学会(Association for Computers and the Humanities)的年会。自2006年起,此会议正式更名为“数字人文”,在欧洲和美洲轮流举行。从主办国的分布上可以看出,人文计算的发展不是一时一地的孤立现象,而是国际学界共同关心的主题。 表现之四,有大量的研究论文发表和相关研究期刊创办,例如牛津大学出版的《文学与语言学计算》(Literary and Linguistic Computing)期刊。另外还有一些期刊采取在线出版的模式,它们也是人文计算论文发表的重要园地。例如《数字人文季刊》(Digital Humanities Quarterly)围绕人文计算展开广泛讨论,除了数据挖掘等技术层面的讨论外,还有“如何将数字人文的计划完成”这样的专题探索。
在我国,尽管没有明确使用人文计算这一概念,但是一些人文计算研究成果已运用在社会实践和生活中了。自2005年起,国家语言文字工作委员会出版发布了《中国语言生活绿皮书》回丛书。该丛书分为A系列和B系列,B系列是关于我国语言状况的呈现和分析,主要发布语言生活中的各种调查报告和实态数据,其中的语言数据统计及其处理技术属于人文计算研究的范畴,统计数据按年度计算和发布。这些工作由教育部语言信息管理司具体组织和指导。截至2012年,语言数据已经连续发布8年,成为该领域内中国大陆乃至整个华语圈的权威。A系列则是发布各类语言规范,其中很多规范涉及语言计算的内容,例如对数据进行规范,便于数据的共享和再利用。《中国语言生活绿皮书》丛书的内容已经超越了传统语言学和计算语言学的研究范围,实际上已经涉及人文计算。围绕《中国语言生活绿皮书》丛书的研究工作已经成为近年来我国持续时间最长、涉及面众多、影响广泛的人文计算工程实践。
人文计算的数据基础、计算模型和计算资源
人文计算与数据有着密不可分的关系:第一,人文计算需要数据资源作为基础,这也是计算的出发点。第二,人文计算重视计算手段的应用,发展计算模型尝试提供客观可量化的指标辅助人文研究,但是并不认为计算能解答所有人文研究的命题。第三,人文计算重视数据的开放与分享,且努力降低进入领域的门槛,扩大影响。
人文计算的数据基础
当今社会处在一个数据量前所未有巨大的时代,这个时代的人文计算与以前在人文学科简单应用计算工具大大不同,研究方法和模式也有显著差异。数据资源是展开人文计算的基础,庞大的数据资源不仅仅限于文字,还包括了影像、音乐等多媒体形式。除了直接数字化产生的数据资源外,非数字化的资料则需要资源与人力进行数字化。
2004年起,以欧盟为主体的“欧洲研究基础建设策略论坛”(European Strategy Forum on Research)汇集了英国、法国、德国、荷兰、丹麦等国的研究力量,合作推动“艺术与人文的数字研究基础建设”(Digital Research Infrastructure for the Arts and Humanities,DARIAH)。他们认为,如同天文学家需要天文台观测宇宙,艺术与人文学者也需要相应的研究基础建设。这是DARIAH成立的目标,也是各国文献资料数字化工作的目标。许多国家的大型图书馆扮演了文献资料数字化的领导角色,比如美国国会图书馆(Library of Congress)的“美国记忆”(American Memory)项目已经在线为读者提供服务。我国台湾地区自2002年开始实施“数位典藏”科技计划(National Digital Archives Program,NDAP),已经建立了门类比较齐全的各类数字化人文数据资源,其中很大部分对外开放。
商业公司也积极进入文献资料的数字化领域,谷歌公司自2002年开始就推动“谷歌图书”(Google Books)计划。根据计划,要建立世界上最大、最全面的数字图书馆,将人类有史以来出版过的印刷书籍全数扫描上网。2004年,谷歌与英美几所大学包括牛津大学、哈佛大学、斯坦福大学和密西根大学等的图书馆签约,拟将这些图书馆的馆藏书籍加以数字化。目前,“谷歌图书”已经可以提供超过七百万本图书的全文检索,部分图书能提供整本浏览,数据量十分惊人。
人文计算的计算模型
为了增进人们对人文资源的认知,发掘其中的新知识,需要引入计算模型,通过信息处理的技术手段拓展研究的视野。
首先是“词频分析”,简单地说就是计算文本中各种词汇出现的次数。词频分析是一种常用的文献分析手段。这一研究方式已经被引入汉语文学作品中,例如针对《红楼梦》前八十回和后四十回是否为同一作者写的问题,就有学者引入词语频度分析进行探讨。同时考虑到写作时使用的词汇不只是写作风格的反映,也是个人关注点和思维方式、思维倾向的表达,因此还可以通过对写作词汇的分析去捕捉作者的思考风格。已有研究者利用这种方法分析政治要人在不同时期的讲话,从中发现了一些有趣的现象和趋势,例如英国前首相撒切尔夫人的讲话,在马岛争端前后涉及了大量的军事词语,而其他时间更多涉及经济和就业方面的内容。
其次,数据挖掘和文本挖掘是信息技术在人文计算中的重要应用,它们有助于研究者发现大量数据内部的隐含关系,其应用的范围很广。在商业销售领域,可以用来分析顾客的行为模式,为后续服务提供参考;网络商店的商品推荐机制就是利用用户大量的购买记录,来分析推测用户的购买模式或偏好;金融保险业则利用这一技术发现利润丰厚的客户。数据挖掘领域已发展出丰富的计算理论和模型,人文计算研究可以先直接选用,随后到人文研究中寻找合适的应用;或者根据人文计算需要挖掘的内容,寻找合适的挖掘模型。
第三,研究者不断尝试将各种在其他领域使用的信息处理模式引入人文计算中,并取得了很好的效果。例如新西兰学者把生物信息计算的概率推理模型引入语言发源的研究中,通过量化考察时间和空间上的演变过程。成功推断出印欧语系起源的地理位置。
需要指出的是,人文计算并不是简单地借助计算机来解决人文研究中的问题,而是利用信息技术找出一些能够计算处理的方式和方法,对问题的研判仍需要依靠人文研究者。
人文计算具有鲜明的交叉学科特点,而交叉学科往往是产生创新思想的沃土。在语言计算方面,有四位著名学者对于语言和计算的关系进行了深入探讨,并建立了新的理论体系。1913年,俄罗斯数学家马尔可夫(A.A.Markov)以诗人普希金长诗中语言符号出现概率为实例,研究随机过程的数学理论,提出了马尔可夫链,并发展出马尔可夫模型。1936年,英国数学家图灵(A.M.Turing)发表了题为《论可计算数及其在判定问题中的应用》的论文。在这篇具有开创性的论文中,图灵给“可计算性”下了一个严格的数学定义,并提出了著名的“图灵机”数学模型。1948年,美国科学家香农(C.E.Shannon)使用离散马尔可夫过程的概率模型来描述语言的自动机。1950年,他在《机器能思维吗》一文中提出,检验计算机智能高低的最好办法是让计算机讲英语和理解英语,他天才地预见到计算机和自然语言将会结下不解之缘。香农的另一个贡献是创立了“信息论”,他将通过诸如通信信道或声学语音这样的媒介传输语言的行为比喻为“噪声信道”或者“解码”,他还借用热力学的术语“熵”来作为测量信道的信息能力或者语言的信息量的一种方法,并首次测定了英语的熵。1956年,美国语言学家乔姆斯基(A.N.Chomsky)从香农的工作中吸取了有限状态马尔可夫过程的思想,首先把有限状态自动机作为一种工具来刻画语言的语法,并且把有限状态语言定义为由有限状态语法生成的语言。这些早期的研究工作催生出“形式语言理论”的研究领域。当然,人文计算不仅是语言计算,其研究的领域和层次还在不断拓展和深入。人文计算为信息科学研究提供了广阔的实践天地。 人文计算的计算资源
除坚实的数据基础和有效的计算模型外,人文计算还需要相应的计算平台和计算资源。近年来兴起的云计算提供了按需付费使用计算资源和存储资源的模式,使用者可以像使用水电等基础公共资源一样,使用云平台上的计算资源和存储资源,只需要按使用量支付一定的费用。如果云计算能真正运用在语言计算中,研究者无需从头开始投资建设相应的软硬件平台以及这些平台运行的环境,就可完成复杂的计算处理,大大降低研究的成本,从而更多专注于人文研究的创新内容。云计算将是人文计算研究不可或缺的计算资源基础。
此外,大数据(big data)也为人文计算的发展注入了源源不断的强劲动力。大数据的“大”其实并没有一个统一的标准,对于不同的研究领域,“大”的度量并不一致。因而可以认为,大数据是指那些大小已超出传统意义的尺度,一般软件工具难以捕捉、存储、管理和分析的数据。而数字化的人文资料完全具备大数据的特点,相应的研究成果将丰富充实大数据的研究。同时,随着大数据研究的深入,一些通用的大规模数据处理方法和模型会更丰富、完善和成熟,它们也将促进人文计算的研究进展。
人文计算的典型案例
在近年来人文计算蓬勃发展的形势下,有必要对其中比较有代表性的研究项目进行总结。
中国历代人物传记数据库
中国历代人物传记数据库(China Biographical Database,CBDB)项目的目标是以宋代人物的传记为中心,在积累大量数据的同时进行群体传记学(prosopography)的研究。群体传记学是想找出某一个特定群体共有的身份信息,比如他们的教育程度、出身背景乃至宗教信仰等,进而通过这个视角对社会现象进行分析。有清史学者利用群体传记学对清朝中叶以前的巡抚进行研究,具体包括巡抚的籍贯、教育背景等,通过统计分析发现一些有趣的现象,如这些巡抚大多在科举考试中不太成功,他们差不多都在官职生涯中期担任这个职位,这是进一步升官的中途站。以往研究者常常提出一些模糊的结论,此次分析让这些论断具有了坚实的数据基础。随着数据量的不断增加,中国历代人物传记数据库项目从群体传记学进一步拓展到人际关系网络的分析。人际关系网络关注的不再是人物群体的共有特征,而是由许多一对一关系对构成的复杂网络。
人物间的关系一直是历史研究中的重要一环。以往的人工分析往往只局限在比较明显或单纯的关系,难以涉及那些潜在的、复杂的关系。通过计算机辅助分析,研究者很可能观察到人际网络中不同节点的关联,从而提出新的结论。参与中国历代人物传记数据库项目计划的研究者已经开始利用这些数据来还原宋代思想学派间的互动,并推测宋代的一些学者可能是不同学派间沟通的桥梁。
从这个项目的研究发展可以看到,研究者在数据资源的基础上不断变化对历史资料审视的视角,计算模型扩展了审视的维度,为挖掘隐藏在数据背后的潜在知识提供了可能,丰富了人文计算的内涵。
印欧语系起源的研究
印欧语系在世界范围内使用人数众多,广泛分布于欧洲、西亚和南亚地区,它的起源一直富有争议。一种理论认为它起源于黑海北方的大草原(Pontic Steppes),大约在6000年前被一个名叫库尔干(Kurgan)的游牧民族带到了其他地方;另一种理论认为印欧语系起源于安纳托利亚(Anatolia,今土耳其境内),是在8000~9500年前伴随着农业的传播而散布到世界各地的。前者的主要论据来自动植物词汇,他们假设一种语言中如果出现了只在特定地区才有的动植物名称,比如“鲑鱼”和“山毛榉”之类,那么这种语言就很可能起源于该地。但是反对派认为,因为气候变化等原因,古代动植物的分布情况很可能和现在大不相同,因此这个方法很不可靠。
这个起源争论由于涉及的时间漫长,波及的地域广阔,仅凭借现有的考古实物难以直接给出答案。那么,有没有可能运用信息技术的处理手段和计算工具来研究印欧语系的起源问题?答案是肯定的。新西兰的研究者根据特定特征在事物中的反映,利用概率信息进行推理,发现了其中的关联线索,构拟出事物发展变化的过程(该方法已成功应用在生物遗传的研究中)。研究者将词汇作为语言的遗传物质,对103种印欧语言(既有现代语言,也有古代语言)进行分析。初期对各个语言的时间特征和语言的分化特性做了研究,得出的结论是,印欧语系的各种语言分家的时间约在7800~9800年前,这个结论符合第二种假说。研究者进一步考虑各种语言在地理空间上的分布特性,希望找出印欧语系的确切诞生地。他们在初期工作的基础上,运用生物信息学在流行病传播研究领域的计算方法和相关的信息处理模型,把语言的变化和地理数据同时输入到计算机中,得出的结论明显支持安纳托利亚起源说。
这项研究的结论获得首先有赖于语言学研究的发展及其丰富的研究成果。研究的数据基础是100多种印欧语言词汇的同源集合,它们是通过各种比较语言学的研究文献收集而来的。此外,在印欧比较语言研究中,针对比较词汇的选择已有一个标准词表。此项研究围绕这一词表展开。不同研究者在一个研究链上形成了合力。目前,这项研究的数据已经向公众开放,有兴趣的人一方面可以展开其他相关的研究,另一方面可以验证研究者的结论。其次,这项研究在语言学研究成果的基础上,通过相关信息技术对这些内容作深化处理和宏观综合,以计算和量化的方式来探索传统语言学长期存在的争论。为解决这类问题寻找到有效途径。因此,一些学者认为该项研究取得了革命性的突破。
人文计算对承载中华文化的启示和展望
从印欧语系起源研究的案例可以看出,在人文计算中,语言计算扮演着非常重要的角色。语言是一种特殊的信息载体,曾有专家对语言的信息表达作这样的论述:按物理学的观念,信息只不过是被一定方式排列起来的信号序列。在社会交际活动中,这个定义还不够,中国语言学家、出版家陈原认为信息还必须有一定的意义,或者说信息必须是“意义的载体”。因此,语言本身既具有客观性,也具有主观性;既具有艺术性,也具有科学性;既具有民族性,也具有世界性;甚至还具有强烈的政治性和无阶级性。
语言承载了民族的文化,汉语的使用者目前已经超过了10亿。汉语除了普通话外还包括众多方言,仅顶层划分就有七大方言体系,有北方方言、吴方言、湘方言、赣方言、客家方言、闽方言和粤方言等。众多的使用者是语言资源的活载体,不断对语言进行创新,而种类繁多的方言,又进一步丰富了语言资源的类别。同时,我国是一个多民族国家,在我国境内除了使用汉语外,还有众多的少数民族同胞使用本民族的语言。据统计,目前我国境内使用的民族语言超过120种,这些民族语言已经有了初步的语言数据资源。这些丰富的语言资源为展开人文计算提供了基础保障。
中华文明源远流长,在中华文明形成和发展的过程中留下了大量表征文明的有形或无形的产物。有形的产物如以文字形式记录下的历史文献资料经过悉心保存可以传世,而那些无形的产物通过人们之间世代传承,随着时间的推移和时代的变迁,一旦湮灭就很难再重现。
众所周知,汉语的字形尽管较少变化,但是现代汉语和古汉语的读音有很大的不同。虽在传统音韵学中对此有比较系统的理论分析。但有关研究已日渐式微。目前已经无法清晰地了解到这些不同是如何以及何时发生的。现有的一些探讨只是零星出现在有关诗词、方言的研究中。这为人文计算提出迫切要求——运用信息技术发掘抢救这一中华文化的重要载体,它将为中华文化的历史无形遗产在信息时代的传承和延续做出贡献,因而以人文计算的视角展开语言计算具有紧迫性。
抓住信息时代机遇,促进人文计算发展,是信息时代对人文研究人员发出的召唤。中国作为走向世界的大国离不开人文底蕴,人文计算有望发挥其研究和传承中华文化的重要作用,再现中华文化的辉煌。
关键词:人文计算 数字人文 语言计算 计算社会学 云计算 大数据
人文计算(Humanities Computing或Computing in the Humanities)是一个新型的将现代信息技术深入应用于传统人文研究的跨学科研究领域。近年来,欧美发达国家已经建立了数字人文(Digital Humanities)研究中心,人文计算已经有了重要的创新成果并广泛服务于社会,取得了良好的社会效益。为了更好地服务社会发展,信息技术需要与人文社会学科更深入地结合,为相关研究注入新的活力。特别是利用信息技术手段变革传统的既有研究模式,从而在广度和深度上增强对人文社会学科研究内容的认知。这一发展趋势既是信息技术服务社会生活的需要,也是人文社会学科适应信息时代变化的必然,因此具有重要的研究意义。
我国作为高速发展的新兴经济体,在经济建设方面已经取得了巨大成就。推动和强化人文计算研究,将催生出有中国特色的创新研究成果,对于繁荣我国的科学技术事业、提升我国的科研实力具有重要的现实意义。
人文计算概述
人文计算是针对计算与人文学科之间的交叉领域进行研究、学习以及创新的一门学科。它的研究范围从在线文档处理到大规模文化数据的挖掘,研究内容涵盖经过数字化加工和直接数字化产生的数据资源以及传统人文学科(例如历史学、哲学、语言学、文学、艺术、考古学、音乐和文化研究等)的方法。它试图通过数据可视化、信息检索、数据挖掘、统计分析、文本挖掘以及数字出版等计算方式为这些研究提供多种工具。
人文计算的一个重要内容是,将信息处理技术系统地融合到人文研究的活动中。如同当代经验社会科学研究对于计算技术的利用一样。基础的信息技术已经大量应用到传统的艺术和人文学科中,包括文本分析技术、地理信息系统技术、通用协同工作技术、交互式游戏和多媒体技术等。
近年来,与人文计算研究内容相近的计算社会学蓬勃发展,取得了丰富的研究成果,特别是在社会舆情、信息传播、社会网络、人工社会等方面,有些研究成果已经应用于实际的社会学研究和社会管理中。
2009年2月,15位来自社会科学、物理学、信息学等领域的学者联合在美国《科学》周刊发表题为《计算社会学》(Computational Social Science)的文章,分析了在广泛使用和多样应用网络背景下产生的、以发掘行为和组织规律为目的的研究问题和已有基础,以及学科发展的机遇与挑战。该文提出了计算社会学的概念,认为人们各种社会行为都以数据的形式留下了记录,而这些数据中蕴含的关于个人和群体行为的规律,可能足以改变人类对个人生活、组织机构乃至整个社会的认知。与传统社会科学通过问卷调查形式获得的数据不同,计算社会学可以借助各种新技术获得长时间、连续、大量人群的各种行为和互动的数据。这些更为全面客观的数据为研究动态的人际交流、大型社会网络的演化等方面的问题打下了坚实的基础。
另据2012年11月美国《时代》周刊报道,奥巴马团队在2012年美国总统大选中利用计算社会学研究成果,通过对各州选民投票倾向样本数据的建模,每晚用云计算平台模拟6.6万次大选,并于每天上午获得计算结果,了解在这些州胜出的可能性,从而针对性地分配资源,对奥巴马最终赢得大选起到重要作用。
虽然经常将社会学和人文学归在一个大的学科领域,然而从研究内容上看,计算社会学有特定的研究内容和研究方向:在社会问题和计算技术之间架起桥梁,从基础理论、实验手段及领域应用等各个层面突破社会科学与计算科学交叉借鉴的困难。因此,计算社会学和人文计算在研究内容上存在明显的区别:前者侧重于社会学和社会管理的研究范畴,后者则侧重于信息技术与人文研究的结合。
人文计算的繁荣发展
人文计算在世界范围内呈现蓬勃发展之势。
表现之一,不少学术机构已建立了人文计算研究单位。其中历史较长的有美国乔治梅森大学(George Mason University)于1994年成立的历史与新媒体中心(Center for History and New Media),该机构的名称反映出其研究方向侧重于历史研究与新兴媒体的结合。同样,很多人文计算机构都是由原先类似的单位演变而来的。在亚洲,日本立命馆大学设立了日本艺术与文化之数字人文中心(Digital Humanities Center for Japanese Arts and Cultures);中国台北的台湾大学建立了数位典藏研究发展中心即数字人文研究中心。
表现之二,研究单位招收人文计算专业的研究生,组建人文计算实验室成为普遍现象。以美国为例,斯坦福大学有斯坦福人文实验室(Stanford Humanities Lab)、加州大学洛杉矶分校有数字人文中心;哈佛大学在2008年推出数字人文先导计划(Digital Humanities Initiative),2010年再进一步成立“人文2.0”(Humanities 2.0)实验室。他们面向校内的人文院系,发展数字化的研究工具、建立讨论平台或是提出跨领域的合作计划。
表现之三,定期举办各类人文计算学术会议。国际上具有较大影响的学术会议是一年一度的数字人文年会。此年会的前身是文学与语言学计算学会(Association for Literary and Linguistic Computing,ALLC)和计算与人文学会(Association for Computers and the Humanities)的年会。自2006年起,此会议正式更名为“数字人文”,在欧洲和美洲轮流举行。从主办国的分布上可以看出,人文计算的发展不是一时一地的孤立现象,而是国际学界共同关心的主题。 表现之四,有大量的研究论文发表和相关研究期刊创办,例如牛津大学出版的《文学与语言学计算》(Literary and Linguistic Computing)期刊。另外还有一些期刊采取在线出版的模式,它们也是人文计算论文发表的重要园地。例如《数字人文季刊》(Digital Humanities Quarterly)围绕人文计算展开广泛讨论,除了数据挖掘等技术层面的讨论外,还有“如何将数字人文的计划完成”这样的专题探索。
在我国,尽管没有明确使用人文计算这一概念,但是一些人文计算研究成果已运用在社会实践和生活中了。自2005年起,国家语言文字工作委员会出版发布了《中国语言生活绿皮书》回丛书。该丛书分为A系列和B系列,B系列是关于我国语言状况的呈现和分析,主要发布语言生活中的各种调查报告和实态数据,其中的语言数据统计及其处理技术属于人文计算研究的范畴,统计数据按年度计算和发布。这些工作由教育部语言信息管理司具体组织和指导。截至2012年,语言数据已经连续发布8年,成为该领域内中国大陆乃至整个华语圈的权威。A系列则是发布各类语言规范,其中很多规范涉及语言计算的内容,例如对数据进行规范,便于数据的共享和再利用。《中国语言生活绿皮书》丛书的内容已经超越了传统语言学和计算语言学的研究范围,实际上已经涉及人文计算。围绕《中国语言生活绿皮书》丛书的研究工作已经成为近年来我国持续时间最长、涉及面众多、影响广泛的人文计算工程实践。
人文计算的数据基础、计算模型和计算资源
人文计算与数据有着密不可分的关系:第一,人文计算需要数据资源作为基础,这也是计算的出发点。第二,人文计算重视计算手段的应用,发展计算模型尝试提供客观可量化的指标辅助人文研究,但是并不认为计算能解答所有人文研究的命题。第三,人文计算重视数据的开放与分享,且努力降低进入领域的门槛,扩大影响。
人文计算的数据基础
当今社会处在一个数据量前所未有巨大的时代,这个时代的人文计算与以前在人文学科简单应用计算工具大大不同,研究方法和模式也有显著差异。数据资源是展开人文计算的基础,庞大的数据资源不仅仅限于文字,还包括了影像、音乐等多媒体形式。除了直接数字化产生的数据资源外,非数字化的资料则需要资源与人力进行数字化。
2004年起,以欧盟为主体的“欧洲研究基础建设策略论坛”(European Strategy Forum on Research)汇集了英国、法国、德国、荷兰、丹麦等国的研究力量,合作推动“艺术与人文的数字研究基础建设”(Digital Research Infrastructure for the Arts and Humanities,DARIAH)。他们认为,如同天文学家需要天文台观测宇宙,艺术与人文学者也需要相应的研究基础建设。这是DARIAH成立的目标,也是各国文献资料数字化工作的目标。许多国家的大型图书馆扮演了文献资料数字化的领导角色,比如美国国会图书馆(Library of Congress)的“美国记忆”(American Memory)项目已经在线为读者提供服务。我国台湾地区自2002年开始实施“数位典藏”科技计划(National Digital Archives Program,NDAP),已经建立了门类比较齐全的各类数字化人文数据资源,其中很大部分对外开放。
商业公司也积极进入文献资料的数字化领域,谷歌公司自2002年开始就推动“谷歌图书”(Google Books)计划。根据计划,要建立世界上最大、最全面的数字图书馆,将人类有史以来出版过的印刷书籍全数扫描上网。2004年,谷歌与英美几所大学包括牛津大学、哈佛大学、斯坦福大学和密西根大学等的图书馆签约,拟将这些图书馆的馆藏书籍加以数字化。目前,“谷歌图书”已经可以提供超过七百万本图书的全文检索,部分图书能提供整本浏览,数据量十分惊人。
人文计算的计算模型
为了增进人们对人文资源的认知,发掘其中的新知识,需要引入计算模型,通过信息处理的技术手段拓展研究的视野。
首先是“词频分析”,简单地说就是计算文本中各种词汇出现的次数。词频分析是一种常用的文献分析手段。这一研究方式已经被引入汉语文学作品中,例如针对《红楼梦》前八十回和后四十回是否为同一作者写的问题,就有学者引入词语频度分析进行探讨。同时考虑到写作时使用的词汇不只是写作风格的反映,也是个人关注点和思维方式、思维倾向的表达,因此还可以通过对写作词汇的分析去捕捉作者的思考风格。已有研究者利用这种方法分析政治要人在不同时期的讲话,从中发现了一些有趣的现象和趋势,例如英国前首相撒切尔夫人的讲话,在马岛争端前后涉及了大量的军事词语,而其他时间更多涉及经济和就业方面的内容。
其次,数据挖掘和文本挖掘是信息技术在人文计算中的重要应用,它们有助于研究者发现大量数据内部的隐含关系,其应用的范围很广。在商业销售领域,可以用来分析顾客的行为模式,为后续服务提供参考;网络商店的商品推荐机制就是利用用户大量的购买记录,来分析推测用户的购买模式或偏好;金融保险业则利用这一技术发现利润丰厚的客户。数据挖掘领域已发展出丰富的计算理论和模型,人文计算研究可以先直接选用,随后到人文研究中寻找合适的应用;或者根据人文计算需要挖掘的内容,寻找合适的挖掘模型。
第三,研究者不断尝试将各种在其他领域使用的信息处理模式引入人文计算中,并取得了很好的效果。例如新西兰学者把生物信息计算的概率推理模型引入语言发源的研究中,通过量化考察时间和空间上的演变过程。成功推断出印欧语系起源的地理位置。
需要指出的是,人文计算并不是简单地借助计算机来解决人文研究中的问题,而是利用信息技术找出一些能够计算处理的方式和方法,对问题的研判仍需要依靠人文研究者。
人文计算具有鲜明的交叉学科特点,而交叉学科往往是产生创新思想的沃土。在语言计算方面,有四位著名学者对于语言和计算的关系进行了深入探讨,并建立了新的理论体系。1913年,俄罗斯数学家马尔可夫(A.A.Markov)以诗人普希金长诗中语言符号出现概率为实例,研究随机过程的数学理论,提出了马尔可夫链,并发展出马尔可夫模型。1936年,英国数学家图灵(A.M.Turing)发表了题为《论可计算数及其在判定问题中的应用》的论文。在这篇具有开创性的论文中,图灵给“可计算性”下了一个严格的数学定义,并提出了著名的“图灵机”数学模型。1948年,美国科学家香农(C.E.Shannon)使用离散马尔可夫过程的概率模型来描述语言的自动机。1950年,他在《机器能思维吗》一文中提出,检验计算机智能高低的最好办法是让计算机讲英语和理解英语,他天才地预见到计算机和自然语言将会结下不解之缘。香农的另一个贡献是创立了“信息论”,他将通过诸如通信信道或声学语音这样的媒介传输语言的行为比喻为“噪声信道”或者“解码”,他还借用热力学的术语“熵”来作为测量信道的信息能力或者语言的信息量的一种方法,并首次测定了英语的熵。1956年,美国语言学家乔姆斯基(A.N.Chomsky)从香农的工作中吸取了有限状态马尔可夫过程的思想,首先把有限状态自动机作为一种工具来刻画语言的语法,并且把有限状态语言定义为由有限状态语法生成的语言。这些早期的研究工作催生出“形式语言理论”的研究领域。当然,人文计算不仅是语言计算,其研究的领域和层次还在不断拓展和深入。人文计算为信息科学研究提供了广阔的实践天地。 人文计算的计算资源
除坚实的数据基础和有效的计算模型外,人文计算还需要相应的计算平台和计算资源。近年来兴起的云计算提供了按需付费使用计算资源和存储资源的模式,使用者可以像使用水电等基础公共资源一样,使用云平台上的计算资源和存储资源,只需要按使用量支付一定的费用。如果云计算能真正运用在语言计算中,研究者无需从头开始投资建设相应的软硬件平台以及这些平台运行的环境,就可完成复杂的计算处理,大大降低研究的成本,从而更多专注于人文研究的创新内容。云计算将是人文计算研究不可或缺的计算资源基础。
此外,大数据(big data)也为人文计算的发展注入了源源不断的强劲动力。大数据的“大”其实并没有一个统一的标准,对于不同的研究领域,“大”的度量并不一致。因而可以认为,大数据是指那些大小已超出传统意义的尺度,一般软件工具难以捕捉、存储、管理和分析的数据。而数字化的人文资料完全具备大数据的特点,相应的研究成果将丰富充实大数据的研究。同时,随着大数据研究的深入,一些通用的大规模数据处理方法和模型会更丰富、完善和成熟,它们也将促进人文计算的研究进展。
人文计算的典型案例
在近年来人文计算蓬勃发展的形势下,有必要对其中比较有代表性的研究项目进行总结。
中国历代人物传记数据库
中国历代人物传记数据库(China Biographical Database,CBDB)项目的目标是以宋代人物的传记为中心,在积累大量数据的同时进行群体传记学(prosopography)的研究。群体传记学是想找出某一个特定群体共有的身份信息,比如他们的教育程度、出身背景乃至宗教信仰等,进而通过这个视角对社会现象进行分析。有清史学者利用群体传记学对清朝中叶以前的巡抚进行研究,具体包括巡抚的籍贯、教育背景等,通过统计分析发现一些有趣的现象,如这些巡抚大多在科举考试中不太成功,他们差不多都在官职生涯中期担任这个职位,这是进一步升官的中途站。以往研究者常常提出一些模糊的结论,此次分析让这些论断具有了坚实的数据基础。随着数据量的不断增加,中国历代人物传记数据库项目从群体传记学进一步拓展到人际关系网络的分析。人际关系网络关注的不再是人物群体的共有特征,而是由许多一对一关系对构成的复杂网络。
人物间的关系一直是历史研究中的重要一环。以往的人工分析往往只局限在比较明显或单纯的关系,难以涉及那些潜在的、复杂的关系。通过计算机辅助分析,研究者很可能观察到人际网络中不同节点的关联,从而提出新的结论。参与中国历代人物传记数据库项目计划的研究者已经开始利用这些数据来还原宋代思想学派间的互动,并推测宋代的一些学者可能是不同学派间沟通的桥梁。
从这个项目的研究发展可以看到,研究者在数据资源的基础上不断变化对历史资料审视的视角,计算模型扩展了审视的维度,为挖掘隐藏在数据背后的潜在知识提供了可能,丰富了人文计算的内涵。
印欧语系起源的研究
印欧语系在世界范围内使用人数众多,广泛分布于欧洲、西亚和南亚地区,它的起源一直富有争议。一种理论认为它起源于黑海北方的大草原(Pontic Steppes),大约在6000年前被一个名叫库尔干(Kurgan)的游牧民族带到了其他地方;另一种理论认为印欧语系起源于安纳托利亚(Anatolia,今土耳其境内),是在8000~9500年前伴随着农业的传播而散布到世界各地的。前者的主要论据来自动植物词汇,他们假设一种语言中如果出现了只在特定地区才有的动植物名称,比如“鲑鱼”和“山毛榉”之类,那么这种语言就很可能起源于该地。但是反对派认为,因为气候变化等原因,古代动植物的分布情况很可能和现在大不相同,因此这个方法很不可靠。
这个起源争论由于涉及的时间漫长,波及的地域广阔,仅凭借现有的考古实物难以直接给出答案。那么,有没有可能运用信息技术的处理手段和计算工具来研究印欧语系的起源问题?答案是肯定的。新西兰的研究者根据特定特征在事物中的反映,利用概率信息进行推理,发现了其中的关联线索,构拟出事物发展变化的过程(该方法已成功应用在生物遗传的研究中)。研究者将词汇作为语言的遗传物质,对103种印欧语言(既有现代语言,也有古代语言)进行分析。初期对各个语言的时间特征和语言的分化特性做了研究,得出的结论是,印欧语系的各种语言分家的时间约在7800~9800年前,这个结论符合第二种假说。研究者进一步考虑各种语言在地理空间上的分布特性,希望找出印欧语系的确切诞生地。他们在初期工作的基础上,运用生物信息学在流行病传播研究领域的计算方法和相关的信息处理模型,把语言的变化和地理数据同时输入到计算机中,得出的结论明显支持安纳托利亚起源说。
这项研究的结论获得首先有赖于语言学研究的发展及其丰富的研究成果。研究的数据基础是100多种印欧语言词汇的同源集合,它们是通过各种比较语言学的研究文献收集而来的。此外,在印欧比较语言研究中,针对比较词汇的选择已有一个标准词表。此项研究围绕这一词表展开。不同研究者在一个研究链上形成了合力。目前,这项研究的数据已经向公众开放,有兴趣的人一方面可以展开其他相关的研究,另一方面可以验证研究者的结论。其次,这项研究在语言学研究成果的基础上,通过相关信息技术对这些内容作深化处理和宏观综合,以计算和量化的方式来探索传统语言学长期存在的争论。为解决这类问题寻找到有效途径。因此,一些学者认为该项研究取得了革命性的突破。
人文计算对承载中华文化的启示和展望
从印欧语系起源研究的案例可以看出,在人文计算中,语言计算扮演着非常重要的角色。语言是一种特殊的信息载体,曾有专家对语言的信息表达作这样的论述:按物理学的观念,信息只不过是被一定方式排列起来的信号序列。在社会交际活动中,这个定义还不够,中国语言学家、出版家陈原认为信息还必须有一定的意义,或者说信息必须是“意义的载体”。因此,语言本身既具有客观性,也具有主观性;既具有艺术性,也具有科学性;既具有民族性,也具有世界性;甚至还具有强烈的政治性和无阶级性。
语言承载了民族的文化,汉语的使用者目前已经超过了10亿。汉语除了普通话外还包括众多方言,仅顶层划分就有七大方言体系,有北方方言、吴方言、湘方言、赣方言、客家方言、闽方言和粤方言等。众多的使用者是语言资源的活载体,不断对语言进行创新,而种类繁多的方言,又进一步丰富了语言资源的类别。同时,我国是一个多民族国家,在我国境内除了使用汉语外,还有众多的少数民族同胞使用本民族的语言。据统计,目前我国境内使用的民族语言超过120种,这些民族语言已经有了初步的语言数据资源。这些丰富的语言资源为展开人文计算提供了基础保障。
中华文明源远流长,在中华文明形成和发展的过程中留下了大量表征文明的有形或无形的产物。有形的产物如以文字形式记录下的历史文献资料经过悉心保存可以传世,而那些无形的产物通过人们之间世代传承,随着时间的推移和时代的变迁,一旦湮灭就很难再重现。
众所周知,汉语的字形尽管较少变化,但是现代汉语和古汉语的读音有很大的不同。虽在传统音韵学中对此有比较系统的理论分析。但有关研究已日渐式微。目前已经无法清晰地了解到这些不同是如何以及何时发生的。现有的一些探讨只是零星出现在有关诗词、方言的研究中。这为人文计算提出迫切要求——运用信息技术发掘抢救这一中华文化的重要载体,它将为中华文化的历史无形遗产在信息时代的传承和延续做出贡献,因而以人文计算的视角展开语言计算具有紧迫性。
抓住信息时代机遇,促进人文计算发展,是信息时代对人文研究人员发出的召唤。中国作为走向世界的大国离不开人文底蕴,人文计算有望发挥其研究和传承中华文化的重要作用,再现中华文化的辉煌。
关键词:人文计算 数字人文 语言计算 计算社会学 云计算 大数据