论文部分内容阅读
冯志伟,1939年生,云南昆明人。先后在北京大学中文系和中国科学技术大学研究生院毕业,专攻语言学和信息科学。1978年到法国格勒诺布尔理科医科大学应用数学研究所(IMAG)自动翻译中心(GETA)留学,1981年回国,在中国科技信息研究所计算中心从事机器翻译研究工作;1986~1988年在德国夫琅禾费研究院新信息技术与通讯系统研究部(FhG)任客座研究员;1990~1993年在德国特里尔大学任客座教授;1996年在德国康斯坦茨技术学院国际术语学与应用语言学中心(CiTal)任技术顾问。现为国家语言文字工作委员会语言文字应用研究所研究员,中国社会科学院研究生院教授,北京大学兼职教授。1991年获国务院特殊津贴;1992年获美国IBA金质奖章,同年被列入英国BEST EUROPE专家库。主要专著有《数理语言学》、《自动翻译》、《现代汉字和计算机》、《中文信息处理与汉语研究》、《数学与语言》、《自然语言机器翻译新论》、《自然语言的计算机处理》、Chinesische Schriftzeichen-Vergangenheit und Gegenwart(《汉字的历史和现状》德文版)、《现代术语学引论》等。
2006年12月初,教育部语言文字应用研究所的著名语言学家冯志伟先生从北京回云南家乡扫墓、探亲、访友。在此之际,笔者有幸拜访了这位蜚声国内外的学者。此前,笔者去过几次北京,但由于冯先生退休后长期在德、韩等国讲学,所以,都未谋面。八年阔别后,老朋友、老同行相见,分外亲热,笔者和他进行了多次长谈,又浏览了他惠赠的新著,更加深入地了解了他这几年的学术活动与成就,遂成此文。
在我国,像冯志伟这样文理兼通的跨学科专家是比较少见的。
冯志伟是教育部语言文字应用研究所的学术委员会委员,又是中国科学院自动化研究所国家模式识别重点实验室的学术委员会委员,横跨了语言学科和自动化学科;他是中国语文现代化学会副会长,又是中国人工智能学会理事,横跨了语文研究和人工智能研究;他是国家社会科学基金语言学科的评审委员,又是国家自然科学基金和北京市自然科学基金计算机学科的评审委员,横跨了语言学科和计算机学科。在国外,他是德国特里尔大学(University Trier)文学院的教授,又是韩国科学技术院(KAIST)电子工程与计算机科学系(EECS)的教授,同样也横跨了文理两科。在学术发展的历史长河中,语言学属于人文科学,计算机和自动化属于自然科学。语言学的基础是语文,计算机和自动化的基础是数学,在传统的教育体系中,语文是文科的典型代表,数学是理科的典型代表,它们之间的区别泾渭分明。冯志伟能够在性质差异如此大的不同学科中取得重要成就,并成为这些学科的学术带头人,他确实是一位在信息时代这个特殊的环境下成长起来的新型的语言学者。
一、北大十年:数理语言学之梦
1939年4月15日冯志伟出生于昆明大东门外(今天长春路东段)的一个小商人之家,下有弟妹六人,他排行在前。父母虽然文化不高、负担很重,却很有卓识远见,除每天起早睡晚搞好土杂店的经营、节衣缩食来供养七个子女念书外,尚能严格教育和督促子女搞好学习。冯志伟自幼聪慧沉静,善于思考,勤奋好学。他在长春路东升小学读书时,就品学兼优,成绩出众,初高中都以第一名的高分考入全省著名的重点学校——昆明一中就读,是昆明一中有名的顶尖学生,文理兼能,多次受到学校和任课教师的嘉奖。这个学校曾培育了无数的英才,如获诺贝尔奖的著名物理学家杨振宁、著名哲学家艾思奇、著名史学家吴晗、著名出版家黄洛峰等等。冯志伟从初一到高三,年年名列前茅,他在默默地追赶着那些曾经给昆明一中带来声誉的前辈老校友们。
1957年高中毕业时,冯志伟才十八岁,是班上年龄最小的学生之一,却以优异的成绩考入了北京大学地球化学专业。地球化学在1957年属于国家重点发展的尖端学科之一,在地球科学里面,也是最先进的学科。冯志伟非常热爱这个专业,当时也没有想从事其他学科的想法。他一心想研究化学元素在地球上的分布规律,兴趣主要在稀有元素上。
他入学后对五光十色的矿物发生了浓厚的兴趣,如醉如痴地观察着不同结晶形状的各种矿物,六方晶系的钻石、方斜晶系的石墨……冯志伟深深地被大自然的奥秘吸引住了,他曾经想研究矿物中最为人们喜爱的宝石,探索各种宝石成矿的规律。
就在冯志伟认真学习地球化学的前后,国外兴起了数理语言学,建立起了完善的理论和方法,并在大学中开设了数理语言学课程,从而使数理语言学作为一个独立的学科出现在现代语言学的百花园中,日益芬芳、灿烂。
1956年,我国开始注意到国外数理语言学的兴起和发展,在国家科学研究的发展规划中,确立了称做“机器翻译,自然语言翻译规则的建立和自然语言的数学理论”的课题。这个课题包括两部分:一部分是机器翻译,另一部分是自然语言的数学理论,也就是今天所说的“数理语言学”。
不久,我国语言学家刘涌泉在《中国语文》上发表了《谈数理语言学》一文,非常简要地介绍了数理语言学这个新兴学科的主要内容和研究方法。但是,由于数理语言学研究要求研究者同时兼具语言学和数学的学科背景,而当时我国的语言学界,还没有这样的学者,因此,虽然数理语言学与机器翻译的研究同时列入了我国的科学研究发展规划,实际上只开展了机器翻译的研究,并没有开展数理语言学的研究。由于缺乏文理兼通的人才,我国的数理语言学处在难产中。
北京大学为我国数理语言学的研究造就了这样的人才。北京大学高举五四“民主”和“科学”的大旗,学术空气非常自由,图书馆藏书丰富,学生可以阅读到各种最新的科学杂志,了解到国内外最新的学术发展动向。这种学术自由的气氛大大地开阔了学生的眼界,使他们有可能紧紧跟上国际学术发展的步伐。当时正在北京大学地球化学专业研究化学元素分布规律的冯志伟,在图书馆馆藏的1956年出版的美国《信息论》(IRE Transaction, Information Theory)杂志上,偶然看到了美国语言学家乔姆斯基(N.Chomsky)的论文《语言描写的三个模型》(Three models for the description of language),遂被乔姆斯基在语言研究中的新思想深深地吸引了。乔姆斯基追求语言描写的简单性原则,为了使用有限的手段描述变化无穷的自然语言,他在文章中建立了形式语言和形式文法的新概念,把自然语言和计算机程序设计语言置于相同的平面上,用统一数学方法进行解释和定义,提出了语言描写的三个模型。用数学方法描写的这三个模型既可以用于描写自然语言,又可以描写计算机程序设计语言,达到了“有限手段的无限运用”的目标。冯志伟预感到这种语言的数学描写方法,将会把自然语言和程序设计语言紧密地结合起来,在信息的处理和研究中发挥出巨大的威力。他经过反复考虑,下决心来研究数学方法在语言中的应用这个问题,并经学校同意,从理科转到中文系语言学专业从事语言学的学习。转入语言学专业之后,冯志伟一面学好传统语言学的各门课程和外语,一面利用课余时间,继续研究数理语言学的问题,他尽量充分地利用北京大学图书馆丰富的藏书和最新的杂志,跟踪国际上数理语言学发展的足迹,遂成为了班上名列前茅的学生。
1961年秋天,团中央机关建立了这样一个制度:团中央书记处的每一位书记至少直接联系一个团支部,作为了解情况和结交青年朋友的一个渠道。1961年11月,北京市团市委为团中央第一书记胡耀邦选定北京大学59级语言专业团支部作为联系点。胡耀邦首先找这个班的团支部书记和宣传委员了解情况,问他们:“你们同学中有学习特别专心的吗?”他们回答介绍说:“我们班有个叫冯志伟的同学学习特别好,他已经学了英语、俄语、德语和日语,而且达到了相当水平,但是好像不特别关心政治。”胡耀邦表示:“我希望找冯志伟同学亲自谈一谈。”
团中央第一书记邀请的消息传到了北京大学,同学们都非常激动。1961年11月11日,北京大学团委安排冯志伟和其他4名同学一起到住在富强胡同的胡耀邦家做客。晚饭后,他们乘公共汽车进城,当时北京的公交车数量严重不足,乘车的人很多,他们没有挤上从颐和园路过北大开往西直门的32路汽车,急中生智,干脆从北大乘车到起点站颐和园,再从颐和园乘车直奔北京市内,当他们赶到富强胡同时已经是晚上9点多钟了。胡耀邦还在一直等待着同学们,等得有些着急了。
年轻的同学们在会客室坐下,胡耀邦给每个同学递上了一个苹果,依次询问每个人的姓名、籍贯。当胡耀邦问到冯志伟的时候,他说:“你就是那个学习特别用功的同学冯志伟吗?你学习那么努力,挨批了没有?”冯志伟笑着回答说:“其实我学习只是出于对语言学的兴趣,自己只是想多学点东西而已。”
冯志伟对于外语的领悟很灵敏,到1961年底的时候,他已经学会了4门外语,而且能够使用这4种外语阅读数理语言学的外文文献了。由于他对数理语言学有强烈的兴趣,加之数理语言学是交叉学科,冯志伟除了学好中文系的语言学课程之外,还要自学数学和外语等不同的学科,时间比别的同学紧,没有很多的时间来关心政治。而当时学校的政治气氛特别浓,不太主张学生读书,冯志伟就显得有些古怪,明明是学中文的文科学生,一有空就做些数学题,还经常读点外文书,这在当时是很不合拍的。有的同学认为冯志伟是在走“只专不红”的道路,对他颇有微词。所以,第一次见面,胡耀邦就已经洞察秋毫,关切地问冯志伟“挨批了没有?”。
冯志伟坦率地向胡耀邦汇报了自己的想法,讲述了自己学习数理语言学的动机和过程。胡耀邦听后,正色地对冯志伟说:“事实将证明你的道路是正确的!”胡耀邦的话斩钉截铁,掷地有声。
胡耀邦还严肃地回过头来对其他同学说:“外语学习是很重要的,我们需要对外交流,语言是很好的交流工具呀,懂了外语可以扩大眼界。”同学们专心地聆听着,默默地思考着,会客室的气氛显得特别肃穆。
接着,胡耀邦换了语气,开始和大家轻松地聊天。他告诉大家:“学生的主要任务是学习知识。我在高中的孩子写了篇作文,老师出题目说,问‘什么是学生的主要任务’?我的孩子写道:学生的主要任务是提高政治水平。”他笑着对同学们说:“现在不少人对学生的主要任务认识不很清楚,其实,道理很简单,学生的主要任务是学习。”
谈话结束时已经很晚了。同学们告别了胡耀邦,一路谈论着他的教导,总算赶上了末班车顺利地回到了北京大学。
几天后,胡耀邦又邀请同学们到他家做客,并且在院子里和同学们一起照相留影。
胡耀邦的亲自接见和亲切谈话给了冯志伟极大的鼓舞,从此,他学习数理语言学更加理直气壮了。
1964年,冯志伟大学毕业,考上了北京大学语言学理论的研究生,经导师岑麒祥教授同意,他的研究生毕业论文的题目定为《数学方法在语言学中的应用》,是我国语言学研究中首次系统地、全面地来研究数理语言学这个新兴学科的论文。
这样,我国的数理语言学研究便首先在北京大学正式地开展起来。北京大学中文系的著名语言学家王力先生和朱德熙先生都支持冯志伟的数理语言学研究,王力先生曾对冯志伟说:“语言学不是很简单的学问,我们应该像赵元任先生那样,首先做一个数学家、物理学家、文学家、音乐家,然后再做一个合格的语言学家。”朱德熙先生曾对冯志伟说:“数学和语言学的研究都需要有逻辑抽象能力,在这一方面,数学和语言学有共同性。”北京大学的这些第一流的学者,总是站在科学的最前沿来看待学术的发展,他们的鼓励给了冯志伟以巨大的力量。
但是这时候发生了一件事情,就是1966年的5月25日,第一张马列主义的大字报贴到了北大饭厅的门口。冯志伟记得很清楚,那一天是5月25日,因为那一天他要去买一本法文词典,当时的《法汉词典》编得很不好,很简单,单词太少了。冯志伟学过日文,可以阅读日文文献,他的导师岑麒祥教授说:“你去买本《仏和词典》吧!”(《仏和词典》是《法日词典》的日语写法),于是,冯志伟就到五道口的外文书店买了一本《仏和词典》。中午时分,冯志伟刚刚在五道口外文书店旁边的小饭馆吃完中饭回到北京大学,看到学校的大饭厅前人头攒动。他伸头一看,大饭厅前面的墙上贴着大字报呢。上面写着“陆平、彭佩云你们要走往何方?”,言词很激烈,陆平是北大的校长,彭佩云是北大的党委书记(彭佩云现在是全国妇联的领导)他们俩当时被认为是北京市委的黑线人物,当时彭真已被揪出来了。冯志伟一看到大字报,就知道他的论文泡汤了,一场很大的革命就要来临了。果然,过了几天,《人民日报》就发表了社论说,“这是一张马列主义的大字报”,一下把火点起来了。北大进入“文化大革命”的混乱状态,王力先生和朱德熙先生等等,都被打成反动学术权威,冯志伟的数理语言学研究也随之失去了支持,这个新兴学科的研究被这场“革命”扼杀在了襁褓之中。冯志伟的数理语言学之梦破灭了,他随之离开了北京大学,被分配到云南边疆的一所中学里教物理课。
二、边疆教书:“文革”浩劫中的艰苦探索
在云南边疆的中学任教期间,冯志伟不信“读书无用论”,不埋怨大材小用,更不考虑生活的艰苦和清贫,除身体力行,认认真真地教好学生,努力搞好本职工作外,还朝朝暮暮,年复一年,利用一切业余时间,密切地关注着国外学术发展的动向。数理语言学仍然像磁石一样强烈地吸引着他。在云南边疆那样闭塞的环境中,他设法利用业余时间,潜心研究数理语言学的问题。在信息不足、资料缺乏的困难条件下,他阅读了所能搜集到的各种关于数理语言学的资料。他懂得英、法、德、俄、日等五种外国语,阅读了散见于各种外文书刊中的数理语言学文献,紧跟着世界上数理语言学发展的步伐。就在“读书无用论”甚嚣尘上的时候,冯志伟总结了当时国外数理语言学的成果,于1975年,以昆明五中教师的名义,写成了《数理语言学简介》的长篇文章,在重庆的一家自然科学杂志《计算机应用与应用数学》上发表,向国内计算机界和数学界详尽地介绍了数理语言学的最新情况。这一篇文章犹如空谷之足音,使当时被文化大革命封闭了世界学术进展的中国学术界了解到国外信息时代已经到来的最新动态。冯志伟在这篇文章中兴奋地告诉广大读者:“信息时代的到来,使得语言学、数学和计算机科学结下了不解之缘,语言研究和计算机技术已经到了非结合不可的地步了!”如今,我国计算语言学界的许多著名学者,就是从这篇文章中最早了解到语言学与数学的联系,从而决心走上研究计算语言学道路的。他们当时对冯志伟这个中学老师的名字极为惊叹,没有想到在云南边疆的中学里竟然有这样一位能够洞察国际学术最新动态的高手!
在云南边疆的那些日子里,冯志伟利用业余时间潜心研究了汉字熵值的测定问题。汉字的“熵”(entropy)是汉字所含信息量大小的数学度量。为了进行语言文字的信息处理,必须知道文字的信息量,因此,也就必须测定文字的熵。这是信息时代语言文字处理应该研究的基础性问题。近几十年来,国外学者已陆续测出一些拼音文字字母中的熵,而汉字数量太大,各个汉字的出现概率各不相同,因此,要计算包含在一个汉字中的熵是一个十分复杂和繁难的问题。
为了计算汉字的熵,首先需要统计汉字在文本中的出现频度,由于20世纪70年代我们还没有机器可读的汉语语料库,哪怕小规模的汉语语料库也没有,冯志伟只得根据书面文本进行手工查频,他请了几个志同道合的朋友,用手工帮助他进行汉字频度的调查。他给这些朋友每个人发了一箱卡片,请他们帮助统计在选定样本资料中的汉字出现的频度,并且把这些频度记录在卡片上。在朋友们的帮助下,冯志伟用了将近10年的时间,对数百万字的现代汉语文本(占70%)和古代汉语文本(占30%)进行了手工查频,从小到大地逐步扩大统计的规模,建立了6个不同容量的汉字频度表,最后根据这些不同的汉字频度表,逐步地扩大汉字的容量,终于计算出了汉字的熵。
为了给汉字熵的测定建立一个坚实的理论基础,冯志伟提出了“汉字容量极限定律”。他用数学方法证明:当统计样本中汉字的容量不大时,包含在一个汉字中的熵随着汉字容量的增加而增加,当统计样本中的汉字容量达到12366字时,包含在一个汉字中的熵就不再增加了,这意味着,在测定汉字的熵时,统计样本中汉字的容量是有极限的。这个极限值就是12366字,超出这个极限值,测出的汉字熵再也不会增加了。在“汉字容量极限定律”的基础上,冯志伟在包含12370个不同汉字的统计样本的范围内,初步测出了在考虑语言符号出现概率差异的情况下,包含在一个汉字中的熵为9.65比特。由此得出结论:从汉语书面语总体来考虑,在现代汉语和古代汉语的全部汉语书面语中,包含在一个汉字中的熵是9.65比特。20世纪80年代,我国北京航空学院计算机系刘源教授使用计算机统计汉字的频度,并计算出汉字的熵为9.71比特。刘源教授使用计算机计算的结果与冯志伟手工测定的结果相差不大,足以说明冯志伟对于汉字熵的测定是十分认真的。冯志伟这项极为重要的科学研究说明,由于汉字的熵大于8比特,所以,汉字不能使用8比特的单字节编码,而要使用16比特的双字节编码。这项研究为汉字信息的计算机处理提供了基本的数据,对汉字编码、汉字改革和汉语的规范化都有重要的指导意义。
三、从北京到法国:研制世界上第一个汉语到多种外语的机器翻译系统
粉碎“四人帮”之后,迎来了科学的春天。高等学校开始招生。毛泽东主席生前对于大学招生做过指示:“大学还是要办的”,但接着他又指示:“我这里主要说的是理工科大学还要办”。毛泽东在他的指示中没有说文科大学还要办。这样,大学招生时,首先恢复的是理工科大学招生,而文科没有招生。冯志伟渴望着早日回到科学研究的岗位上去,他决定,既然文科不招生,那就报考理工科,于是,他报考了中国科学技术大学研究生院,毅然参加理工科大学的入学考试。1978年,原来毕业于北京大学中文系研究生的文科学生冯志伟,以优异的理科成绩考上了中国科学技术大学研究生院信息科学系的研究生,又开始了理科的学习,从云南边疆回到了北京。
在中国科学技术大学研究生院学习期间,冯志伟很快就在理工科的杂志上发表了论文。1979年,《计算机科学》杂志创刊,他就在该杂志创刊号上发表了《形式语言理论》的长篇论文,用严格的数学表达方式向计算机科学界说明数理语言学中的形式化方法如何推动了当代计算机科学的发展,并且指出:在数理语言学研究中发展起来的形式语言理论,事实上已经成为了当代计算机科学不可缺少的一块重要理论基石,计算机科学绝不可忽视形式语言理论。许多人认为这篇文章一定是资深的计算机科学家写的,后来,当计算机界的一些专家了解到,这篇论文的作者竟然是文革前北京大学中文系的一名文科研究生的时候,感到非常惊讶。
不久,冯志伟被中国科学技术大学研究生院选送到法国格勒诺布尔理科医科大学应用数学研究所(IMAG)自动翻译中心(GETA)学习,师从当时国际计算语言学委员会主席、法国著名数学家沃古瓦(B.Vauquois)教授,并专门研究自动翻译和数理语言学问题。沃古瓦教授是国际计算语言学委员会的创始人,是当时国际计算语言学的领军人物,他领导的GETA在机器翻译的理论和实践上都做出了出色的成绩。冯志伟在GETA良好的学习环境中,可以了解到机器翻译发展的最新情况,可以学习到当代机器翻译最前沿的技术。冯志伟喜欢数学,而沃古瓦教授是数学家,他们都深知自然语言的形式理论对于构建机器翻译系统的重要性。
在法国留学期间,冯志伟的主要工作是进行汉语与不同外语的机器翻译研究。开始时,他使用的自然语言形式理论是乔姆斯基的短语结构语法,他试图使用短语结构语法来进行汉语的自动分析。早在1957年,冯志伟就接触到乔姆斯基的形式语言理论,他对乔姆斯基的理论是有深入了解的。乔姆斯基根据形式语法的原理,提出了短语结构语法作为自然语言形式描述的一种手段,这种语法在自然语言处理中得到了广泛的使用。国内外的许多机器翻译系统都采用乔姆斯基的短语结构语法作为系统设计的基本理论依据。根据乔姆斯基的短语结构语法,表示句子结构的树形图中的每一个结点只有一个相应的标记,结点与标记之间的这种关系是一种单值标记函数的关系。这种单值标记函数表示的语言特征是十分有限的,因而在机器翻译中进行汉语自动分析时,会出现大量的歧义问题,难于区分句法结构相同而语义结构不同的汉语句子,这种分析法是短语结构语法在分析汉语时一个致命的缺点。
当时,冯志伟在法国研制开发机器翻译系统的实践中,就已敏锐地认识到短语结构语法的这种致命缺点。
有一天,沃古瓦教授和冯志伟讨论汉语自动分析的问题。冯志伟坦率地向沃古瓦教授说:“乔姆斯基的短语结构语法对于法语和英语的分析可能没有多大问题,可是,用这种语法来分析汉语,几乎寸步难行”。
沃古瓦教授用好奇的目光看着冯志伟,他希望冯志伟进一步阐述自己的看法。冯志伟举例作了如下说明:
在汉语中可以说“点心吃了”,实际上是“点心被吃了”,但汉语一般不用“被”字;汉语中还可以说“张三吃了”,实际上是“张三把点心吃了”。“张三”是个名词短语NP(Noun Phrase),“点心”也是个NP,“吃了”是个动词短语VP(Verb Phrase),这两个句子的规则都是:S→NP+VP,其中,S(Sentence)表示句子,它们的层次相同,词序相同,词性也相同,但却有截然不同的含义,一个是被动句,一个是主动句。我们怎么来解释这样的差异呢?如果使用短语结构语法,用计算机来分析这两个不同的句子,计算机最后做出来的肯定是一样的树形图,它们的差别只是在叶子结点上的词不一样,整个树形图的上层都是同样的S→NP+VP,这样结构相同的句子为什么会有不同的语义解释,从而产生不同的含义呢?使用短语结构语法显然是解释不了的,而中文里到处都是这样的句子,因为中文里的被动关系有不同的表示方法,有时主动和被动在形式上没有明显的区别,可以从句子的上下文和意念上来加以区分。在这种进退两难的局面下,唯一的出路就是根据汉语语法的特点改进乔姆斯基的短语结构语法,设法使用一种新的方法来描述汉语。
沃古瓦教授耐心地听完了冯志伟的说明,从沙发上站起来惊叹地说:“汉语真是一种langue terrible(法语:糟糕的语言)”。他说:“哪种语言能够不分主动和被动,‘人吃了’和‘被人吃了’怎么能是一样?怎么这么乱?”
冯志伟向沃古瓦教授解释道:其实中国人一点儿也不感觉到乱,中国人在说话时分辨得很清楚,因为我们中国人知道在一般情况下,人是不能被吃的。所以“小王吃了”的语义不能是“小王被吃了”,而点心不吃东西,所以“点心吃了”必定是“点心被吃了”。汉语是靠词汇的固有语义来解决语法问题的,但是对于法国人来讲,并不存在这样的问题。所以,我们不能按照法语的思考方法来处理这个汉语的问题,我们必须另辟蹊径!
沃古瓦教授是一个知识广博、眼界开阔的学者,他鼓励冯志伟沿着这个思路继续探索。他对冯志伟说:“乔姆斯基的短语结构语法也不一定永远正确嘛!”
在冯志伟告别时,沃古瓦教授兴奋地说:“我相信,你一定能找出一种汉语自动分析的新方法。”
这次和沃古瓦教授的谈话使冯志伟深刻地认识到,乔姆斯基的短语结构语法在汉语自动分析时确实遇到了极大的困难。这种困难甚至连沃古瓦教授这样世界第一流的计算语言学家也承认了。作为中国的科学工作者,他必须想出一种新的办法,来克服短语结构语法的缺点。不然,他现在进行的汉语自动分析就很难搞下去了。
这一天夜里冯志伟很不平静,翻来覆去总在思考这个问题。第二天早晨冯志伟走到沃古瓦教授的办公室,他明确地向沃古瓦教授提出:我们正面临一个新的挑战,我们必须思考一种新的语法理论来解决这个问题。沃古瓦教授完全同意冯志伟的意见,他进一步鼓励冯志伟探索新的理论和方法来解决汉字自动分析中出现的这个困难问题。
在沃古瓦教授的鼓励下,冯志伟对这个问题反复进行了思考。他观察到:“小王吃了”和“点心吃了”这两个貌似相同的句子在词汇的语义上有很大的不同,“小王”在语义上是一个“人”,一般情况下,“人”是“吃了”这个行为的主动者,而“点心”在语义上是“食品”,一般情况下,“食品”是“吃了”的被动者,是“吃了”的对象。在短语结构规则S→NP+VP中,如果我们不把NP看成一个不可分割的单元,而把NP进一步加以分割,使用若干个特征来代替NP这个单一的特征,就有可能在计算上把它们分解开来了。例如,在“小王吃了”中,我们把NP分解为“NP|人”两个特征,在“点心吃了”中,我们把NP分解为“NP|食品”两个特征。在计算机处理语言时,特征也就是“标记”,冯志伟提出,如果我们使用“多标记”来代替短语结构语法中的“单标记”,就有可能大大地提高短语结构语法描述语言的能力,就可以使用改进后的这种语法来描述汉语,实现汉语的自动分析。这就是冯志伟提出的关于“多标记”的设想。
冯志伟对于短语结构语法的另一个改进是使用多叉树代替短语结构语法的二叉树。乔姆斯基曾经提出乔姆斯基范式,他认为自然语言的结构具有二分的特性,因此他主张在自然语言处理中使用“二叉树”(binary-tree)。冯志伟认为在汉语中存在着“兼语式”和“连动式”等特殊句式,它们都不具备二分的特性,因此,冯志伟主张使用“多叉树”来代替“二叉树”,从而提高短语结构语法描述汉语的能力。例如,“请小王吃饭”是一个兼语式的句子,其中的“小王”作前一个动词“请”的宾语,又做后一个动词“吃饭”的主语,在计算机处理时,究竟是分析为“请/小王吃饭”,还是“请小王/吃饭”,我们将处于进退维谷的境地。如果采取三分,把这个句子分析为“请/小王/吃饭”,可以避免分析树的交叉,得到唯一的分析结果。
经过在计算机上编写程序进行潜心的钻研和反复的试验,冯志伟提出了“多叉多标记树模型”(Multiple-labeled and Multiple-branched Tree Model,简称MMT模型)。在MMT模型中,他采用多值标记函数来代替短语结构语法的单值标记函数,使得树形图中的一个结点,不再仅仅对应一个标记,而是对应若干个标记,他还使用多叉树来代替二叉树,这样便大大地提高了树形图的标记能力,使得树形图的各个结点,都能记录足够多的语法语义信息,把句子中所蕴含的丰富多采的信息充分地表示出来。这种多值标记函数的理论,从根本上克服了乔姆斯基的短语结构语法在描述自然语言时的严重缺点,提高了其有限的分析能力,限制了其过强的生成能力。显而易见,冯志伟的MMT模型是对乔姆斯基短语结构语法的一个带有实质意义的重要改进,这个模型提出后,立即引起了国际计算语言学界的高度重视,在1982年于布拉格召开的国际计算语言学会议(COLING'82)上,在1983年于北京召开的国际中文信息处理会议(ICCIP'83)上,在1984年于香港召开的东南亚电脑会议(SEARCC'84)上,冯志伟都介绍了他提出的MMT模型。沃古瓦教授在国际计算语言学会议(COLING'82)的大会发言中,也赞扬了冯志伟的研究工作。COLING是计算语言学界最高水平的学术会议,冯志伟是我国第一个参加COLING会议的学者。他在这些国际会议上的发言,引起了国际学术界对汉语自动句法分析和汉语自动语义分析的兴趣。他的MMT模型是我国学者在汉语“自动句法-语义分析”方面最引人注目的早期研究成果,直到20世纪90年代以后,我国计算语言学界才开始注意到汉语的“自动句法-语义分析”的研究,比冯志伟的MMT模型晚了十几年。
就在冯志伟提出MMT模型的同时,国外一些计算语言学家也看到了短语结构语法的局限性,分别提出了各种手段来改进它。例如1983年卡普兰(R.M.Kaplan)和布列斯南(J.Bresnan)提出的“词汇功能语法”、1983年马丁·凯依(Martin Kay)提出的“功能合一语法”、1985年盖兹达(G.Gazdar)等提出的“广义短语结构语法”、1985 年珀拉德(C.Pollard)提出的“中心语驱动的短语结构语法”等,都采用了“复杂特征”来描述自然语言,他们所谓的“复杂特征”实际上也就是冯志伟提出的“多值标记”,名异而实同。所以,冯志伟提出的MMT模型,是世界计算语言学者对乔姆斯基的短语结构语法进行改进的一个重要方面和不可分割的组成部分,MMT模型是20世纪80年代较早提出的一个旨在改进短语结构语法的形式化模型,当时我国学者在这方面的研究在国际上是处于前沿地位的。
1984年,荷兰阿姆斯特丹北荷兰出版社出版的多卷专著《计算机科学基础研究》第9卷《自然语言处理的计算机模型》一书(由意大利米兰大学主编)中,曾详细介绍了冯志伟的MMT模型,并评论说:“冯氏关于独立分析-独立生成的主张,关于尽可能地从源语言分析中获取多方面信息的主张,是当前自然语言处理研究中的一个重要进展”。
冯志伟还结合汉语的特点和需要,研究了采用MMT模型来解决汉语自动分析的各种问题。他指出,在汉语的自动分析中,采用“多值标记”的必要性更加明显。这是因为汉语的句子不能只用词类或词组类型等简单特征来描述,汉语句子各个成分的词类、词组类型、句法功能、语义关系、逻辑关系之间,存在着极为错综复杂的关系,如果只采用简单特征,就无法区分各种歧义现象,达不到汉语自动处理的目的。
具体地说,这是由于:(一)汉语句子中的词组类型(或词类)与句法功能之间不存在简单的一一对应关系;(二)汉语句子中词组类型(或词类)和句法功能相同的成分,它们与句子中其它成分的语义关系还可能不同,句法功能和语义关系之间也不是简单地一一对应的;(三)汉语中单词所固有的语法特征和语义特征,对于判别词组结构的性质,往往有很大的参考价值,除了词组类型这样的简单特征之外,再加上单词固有的语法特征和语义特征,采用多值标记来描述,就可以判断词组结构的性质。
冯志伟还提出了用于多值标记的汉语“特征-值”系统,特征可分为静态特征和动态特征两大类。其中,静态特征有词类特征、单词的固有语义特征和它的值、单词的固有语法特征和它的值;动态特征有词组类型特征和它的值;句法功能特征、语义关系特征、逻辑关系特征。在自动句法语义分析中,静态特征是计算机进行运算的基础,计算机依赖于这些预先在词典中给出的静态特征,通过有穷步骤的运算,逐渐计算出各种动态特征,从而逐步弄清楚汉语句子中各个语言成分之间的关系,达到自动句法语义分析的目的。
冯志伟在法国留学期间,了解到法国语言学家特斯尼耶尔(L.Tesniere)的从属关系语法和语法“价”的概念,他用这种语法来研究汉外机器翻译问题,首次把“价”(valence)的概念引入我国的机器翻译研究中。他把动词和形容词的行动元(actant)分为主体者、对象者、受益者3个,把状态元(circonstant)分为时刻、时段、时间起点、时间终点、空间点、空间段、空间起点、空间终点、初态、末态、原因、结果、目的、工具、范围、条件、作用、内容、论题、比较、伴随、程度、判断、陈述、附加、修饰等27个,以此来建立多语言的自动句法分析系统,对于一些表示观念、感情的名词,也分别给出了它们的价。他还把从属关系语法和短语结构语法结合起来,在表示结构关系的多叉多标记树形图中,明确地指出中心语的位置,并用核心(GOV)、枢轴(PIVOT)等结点来表示中心词。这是我国学者最早利用从属关系语法和配价语法来进行自然语言计算机处理的尝试,他提出的3个行动元和27个状态元的汉语配价系统,经过了机器翻译实践的检验,证明是行之有效的。这个汉语配价系统为汉语配价研究奠定了初步的理论基础,后来学者们提出的诸多汉语配价系统,与冯志伟在MMT模型中的这个汉语配价系统大同小异。
冯志伟根据机器翻译的实践,提出了表示从属关系语法的从属树(Dependence Tree)应该满足如下五个条件:(一)单纯结点条件:从属树中,只有终极结点,没有非终极结点,从属树中的所有结点所代表的都是句子中实际出现的具体的单词;(二)单一父结点条件:在从属树中,除了根结点没有父结点之外,所有的结点都只有一个父结点;(三)独根结点条件:一个从属树只能有一个根结点,这个根结点,就是从属树中唯一没有父结点的结点,这个根结点支配着其他所有的结点;(四)非交条件:从属树中的树枝不能彼此相交;(五)互斥条件:从属树中的结点之间,从上到下的支配关系和从左到右的前于关系之间是互相排斥的,如果两个结点之间存在着支配关系,它们之间就不能存在前于关系。冯志伟提出的这5个条件比1970年美国计算语言学家罗宾孙(J.Robinson)提出的从属关系语法的4条公理更加直观,更加便于在机器翻译中使用。
冯志伟在法国研究的另一个问题是生成语法的公理化方法。冯志伟从公理化方法的角度来研究乔姆斯基的形式文法,他把乔姆斯基的形式文法同数学中的“半图厄系统”(semi-Thue system)相比较,指出了乔姆斯基的形式文法,不过是数学中的公理系统理论在语言分析中的应用而已,语言就是由文法这一公理系统从初始符号出发推导出的无限句子的集合;文法的规则是有限的,文法中的终极符号和非终极符号的数目也是有限的,可是,由于语言符号具有递归性,文法这一公理系统就能够根据有限的符号,通过有限的重写规则,递归地推导出无限的句子来。冯志伟的研究,从数学的基础理论方面揭示了形式文法的实质。
冯志伟根据他提出的MMT模型,于1981年完成了汉-法/英/日/俄/德多语言机器翻译试验,建立了FAJRA系统。在IBM-4341大型计算机上,把二十多篇汉语文章自动地翻译成英文、法文、日文、俄文、德文。这是世界上第一个汉语到多种外语的机器翻译系统,开创了多语言机器翻译系统之先河。
冯志伟的研究从理论和实践上都改进了短语结构语法,受到了导师沃古瓦教授的赞赏。冯志伟急着想把他的成果应用到中国的科技信息文献的大规模翻译方面,建立一个实用的机器翻译系统,因此,实验报告一写完,他就马上离开法国回到了祖国。
回到北京,冯志伟想到的第一件事情就是到北京大学拜见他的老师——著名语言学家王力先生,向王力先生汇报在法国学习的收获。早年冯志伟在北京大学中文系开始研究数理语言学的时候,王力先生就支持过冯志伟的研究,在北京大学求学期间,冯志伟曾经认真地听过王力先生讲授的《古代汉语》《汉语史》《中国语言学史》《清代古音学》等课程,学习成绩优异,这些课程,为他后来的计算语言学研究奠定了坚实的基础,冯志伟永远忘不了他的恩师王力先生。
1982年春天,冯志伟和他的老同学吴坤定(现为北京出版社编审)一起到北京大学燕南园去看望王力先生。一进门,王力先生就高兴地请他们坐下。王力先生对冯志伟说:“听说你到法国之后已经改行学习自然科学了,现在,你有了很好的数理化基础,因此也就有了科学的头脑,这些都是很宝贵的财富,在语言学研究中随时用得着”。冯志伟向王力教授汇报了他在法国研究多语言机器翻译的收获。王力先生细心地听着,他对冯志伟说:“我前年在武汉开的中国语言学会成立大会上曾经说,我一辈子吃亏就吃亏在不懂数理化。现在你懂得数理化,就不会像我这样吃亏了,我相信你今后一定会做出更好的成绩”。接着,王力先生又说:“20多年前我曾经对你说过,我希望你学习赵元任先生。当然,这是很难的。赵元任先生由哲学家、物理学家、数学家、文学家、音乐家做底子,最后才成为世界著名的语言学家的。我一辈子都想学他,但是,我的数理化基础差,没有学好。你现在到法国学习了自然科学,已经具备学习赵元任先生的条件了,我再一次提醒你,你要向赵元任先生学习,而且一定要学得比我好”。王力先生这些语重心长的话,给了冯志伟极大的鼓励,他决心按照王力先生的教导,把数理化的知识和语言学的知识结合起来,做一个信息时代的新型的语言学家。
从法国回国之后,冯志伟在中国科技信息研究所计算中心担任机器翻译研究组的组长。在王力先生的鼓励下,他利用当时北京遥感技术研究所的IBM-4361计算机,于1985年进行了德-汉机器翻译试验和法-汉机器翻译试验,建立了GCAT德-汉机器翻译系统和FCAT法-汉机器翻译系统,检验了MMT模型分析汉语和生成汉语的能力,试验结果良好。可惜由于资金缺乏,不能开展更大规模的实验,他要建立实用性机器翻译系统的愿望没有马上实现。
1982年秋天,冯志伟应北京大学的邀请,在北京大学中文系汉语专业开设了“语言学中的数学问题”的选修课。这是国内首次在高等学校全面地、系统地讲述数理语言学的课程,受到学生们的欢迎。北京大学前任校长、著名数学家丁石孙教授在他的专著《数学与教育》一书中,对冯志伟的这门课程作了如下的评价:“1982年,北京大学中文系开设了《语言学中的数学问题》,这是给汉语专业学生开的选修课程,许多同学对这门学科产生了很大的兴趣。经过一个学期的学习,同学们初步认识了现代数学的发展给语言学注入了生机,觉得获益匪浅,对语言学这门古老的学科分支的发展充满了信心,而且这一举动冲击了相当多人的旧概念,使闭塞的中国学术界认识到,即使在人文科学教育中,数学也在逐渐起作用。”在北京大学讲稿的基础之上,冯志伟写出了我国第一部数理语言学的专著,书名就叫做《数理语言学》,于1985年8月由上海知识出版社出版。接着,他又出版了《自动翻译》专著,深入地探讨自然语言机器翻译的理论和实践问题。这两本专著的出版,受到了我国计算语言学界的欢迎。不少出国学习计算语言学的留学生,出国时都带着这两本书,作为入门的向导。
四、德国斯图加特:建立世界上第一个中文术语数据库
1985年,原文字改革委员会改名为国家语言文字工作委员会,需要计算语言学方面的人材,冯志伟调入了国家语言文字工作委员会语言文字应用研究所担任计算语言学研究室主任,得以专门从事计算语言学的研究工作。与此同时,理工科方面仍然很需要他,他也在中国科学院软件研究所担任兼职研究员。
根据中德科技合作协定,冯志伟受中国科学院软件研究所的派遣,于1986年至1988年到德国夫琅禾费研究院新信息技术与通讯系统研究所(FhG)担任客座研究员,从事术语数据库的开发。FhG在德国的斯图加特(Stuttgart),是德国著名的工程研究院,在信息科学和术语数据库方面的研究尤其出色。
术语是人类科学技术知识在自然语言中的结晶。术语数据库是在计算机上建立的人类科学技术的知识库,冯志伟的这项研究属于知识工程的研究,具有重要的意义。
当时还没有很好的汉字输入输出软件,冯志伟克服了重重困难,在FhG使用UNIX操作系统和INGRES软件,建立了数据处理领域的中文术语数据库GLOT-C,并且把这个数据库与FhG的其他语言的术语数据库相连接,可以快速地进行多语言术语的查询和检索,并且能够处理汉字。这是世界上第一个中文术语数据库,具有开创作用。
在FhG研究术语数据库的过程中,冯志伟还接触到多种语言的大量术语,他惊异地发现,几乎在每一种语言中,词组型术语的数量都大大地超过了单词型术语的数量。他试图从理论上对这样的语言事实进行解释。
为此,他把数理语言学的理论应用到术语数据库的研究中,提出了“术语形成的经济律”。他证明了:在一个术语系统中,术语系统的经济指数与术语平均长度的乘积恰恰等于单词的术语构成频度之值,并提出了“FEL公式”来描述这个定律。
根据FEL公式可知,在一个术语系统中,提高术语系统经济指数的最好方法是在尽量不过大地改变术语平均长度的前提下,增加单词的术语构成频度。这样,在术语形成的过程中,将会产生大量的词组型术语,使得词组型术语的数量大大地超过单词型术语的数量,而成为术语系统中的大多数。
FEL公式从数理语言学的角度,正确地解释了为什么术语系统中词组型术语的数目总是远远大于单词型术语的数目的数学机理,它反映了语言中的省力原则和经济原则,这是我国学者对于数理语言学中著名的齐夫定律(Zipf's law)的新发展,并从术语的角度说明了语言中的省力原则和经济原则是具有普遍意义的原则。
“术语形成的经济律”提出之后,国内外的术语学界根据术语数据库的事实进行检验,检验证明,在各种术语数据库中,词组型术语的数目确实都大于单词型术语的数目。因此,冯志伟提出的“术语形成的经济律”是适应于各种语言的一条普遍规律,是现代术语学的一条重要的基本定律。
语言是现实的编码体系,术语形成的经济律反映了用词作为语言材料进行单词型术语和词组型术语的编码时的经济律,这一经济律也可适用于语言编码的其他领域。汉语在用单字组成多字词的时候,有限数目的单字组成了为数可观的多字词,多字词以增加自身的长度为代价来保持汉语中原有单字的个数或者尽量不增加原有单字的个数,体现了组字成词这个编码过程的经济律。多字词也就是双音词或多音词,著名语言学家吕叔湘先生指出,“北方话的语音面貌在最近几百年里没有多大变化,可是双音词的增加以近百年为甚,而且大部分是与经济、政治和文化生活有关的所谓‘新名词’。可见同音词在现代主要起消极作用,就是说,要创造新的单音词是极其困难的了。”吕叔湘先生在这里一方面指出了要创造新的单音词(即单字)极其困难,一方面又指出了双音词(即双字词)的大量增加的现象,这正是组字成词的经济律的生动体现。
对汉字结构及其构成成分的统计与分析表明,在《辞海》(1979年版)所收的16295个字和GB2312-80国家标准《信息交换用汉字编码字符集·基本集》收入,而《辞海》未收的43个字中,简化字和被简化的繁体字(包括被淘汰的异体字和计量用字)以及未简化的汉字共有16339个,它们是由675个不能再分解的末级部件构成的,简化字和未简化的汉字(不包括被简化的繁体字、被淘汰的异体字和计量用字)共11837个,它们是由648个不能再分解的末级部件构成的。由少量的部件构成大量的汉字,体现了部件构成汉字这一编码过程的经济律。
所以,冯志伟提出的术语形成经济律实际上乃是“语言编码的经济律”,这是语言学中的一个普遍规律,它支配着语言编码的所有过程。
冯志伟在研究FEL公式的同时还提出了“生词增幅递减律”。他指出,在一个术语系统中,每个单词的绝对频度是不同的,经常使用的单词是高频词,不经常使用的单词是低频词,随着术语条目的增加,高频词的数目也相应地增加,而生词出现的可能性越来越小,这时,尽管术语的条数还继续增加,生词总数增加的速率却越来越慢,而高频词则反复地出现,生词的增幅有递减的趋势。这个“生词增幅递减律”不仅适用于术语系统,也适用于阅读书面文本的过程。人们在阅读一种用自己不熟悉的语言写的文本时,开始总有大量不认识的生词,随着阅读数量的增加,生词增加的幅度会逐渐减少,如果阅读者能够掌握好已经阅读过的生词,阅读将会变得越来越容易。
冯志伟在术语研究中还提出了“潜在歧义论”(Potential Ambiguity Theory,简称PA论),指出了中文术语的歧义格式中,包含着歧义性的一面,也包含着非歧义性的一面,因而这样的歧义格式是潜在的,它只是具有歧义的可能性,而并非现实的歧义。潜在的歧义能否转化成现实的歧义,要通过潜在歧义结构的“实例化”(instantiation)过程来实现,“实例化”之后,有的歧义结构会变成真正的歧义结构,有的歧义结构则不然。这一理论是对传统语言学中“类型-实例”(type-token)观念的冲击,深化了对于歧义格式本质的认识。近年来,冯志伟又把PA论推广到日常语言的领域,促进了自然语言处理中的歧义消解的研究。
术语是记录科学技术知识的基本单元,哪里有知识,哪里就有术语。因此,术语的研究对于人类知识的系统处理,对于科学技术交流都有重要的价值。冯志伟把他研究术语的成果写成《现代术语学引论》一书,于1997年出版,这是我国第一本关于术语学的专著。
五、德国特里尔:在马克思的故乡探索汉字的数学结构
1990年至1993年,冯志伟被德国特里尔大学文学院聘任为客座教授。特里尔是一座有2000年历史的古城,又是马克思的故乡,冯志伟有机会经常到马克思的故居了解这位无产阶级革命导师的光辉业绩。
在特里尔大学文学院任教期间,冯志伟用德语给德国学生讲授“汉魏六朝散文”“唐诗宋词”“中国现代散文”“汉字的发展与结构”“汉语拼音正词法”“汉语词汇史”“机器翻译的理论和方法”等课程。为了讲好课,他苦练德语口语,认真用德语备课,在上每一节课之前,他都要先用德语把讲课的内容自己对自己叙述一遍或多遍,直到能够熟练地背诵为止,他把“备课”当作了“背课”。由于冯志伟备课特别认真,课堂教学效果很好,他的课受到德国学生的一致好评。冯志伟当时的一些学生现在已经成为德国知名的语言学家了。
在教学中他发现,德国学生学习汉语时,学说汉语并不困难,困难的是学汉字。这是因为汉字数量多,结构复杂。因此,他开始研究如何教德国学生学习汉字的问题。
他经过反复的思考,把自己在法国留学时提出的MMT模型运用到汉字结构的教学中,提出了汉字结构的括号式表示法,用这种方法可以把一个汉字按层次分解为若干个部件,构成一个树形结构,再把这样的树形结构用括号表示出来。学生只要掌握了基本的汉字部件,就可以进一步学会由这些部件构成的整个汉字,以简驭繁,使汉字便于理解和记忆。这样的方法受到德国学生的欢迎。
冯志伟把他的研究结果写成了《汉字的历史和现状》一书,用德文在特里尔科学出版社出版。德国特里尔大学韦荷雅(Dorothea Wippermann)博士1996年在《评冯志伟新著〈汉字的历史和现状〉(德文版)》一文中指出,冯志伟“在汉字研究中引入了现代的成分分析法。对于这种方法,直到现在为止,许多在专家圈子之外的普通人还很不熟悉,所知极少。这种分析法认为,汉字是由不同的图形成分组合而成的一个封闭的集合,其中的每一个较大的成分都可以进一步被拆分为较小的成分,一直被拆分到单独的笔画为止。汉字结构的这种多层次的多分叉的构造图形可以用树形图来表示,这样一来,便为揭示汉字总体结构的研究提供了一种系统性的理论和方法。这种在中文信息处理中行之有效的成分分析法,对于汉字的研究和学习,也提供了一种新的记忆手段”。
冯志伟在特里尔大学用德语讲授了一系列的汉语语言学课程,并且用德语出版了语言学的专著,显示了他的外语才能。在我国中文系出身的语言学家当中,像冯志伟这样通晓多门外语的人还不多。他不仅是一位善于深思的语言学理论家,而且还是一位勇于实践的能操多种外国语的多面手。
在德国讲学的那段时间里,有一次他到一位德国教授的家里做客,闲谈中谈到了德国著名诗人海涅 (Heinrich Heine)。冯志伟年轻时曾经读过海涅的诗歌和散文,当这位德国教授谈到海涅的《哈尔茨山游记》(Harzreise)时,冯志伟情不自禁地用德语朗诵起来:“Die Stadt Göttingen, berühmt durch ihre Würste und Universität, gehört dem Könige von Hannover”(哥廷根属于汉诺威公国,以它的香肠和大学而闻名于世)。这位德国教授感到非常惊讶,他万万没有想到一个中国人竟然能够如数家珍地背诵海涅的散文,怀疑地问冯志伟:“你背诵的可能不准确吧?”冯志伟很有信心地回答:“我认为是准确的,这是《哈尔茨山游记》的第一句话。”这位德国教授从书架上找到了海涅的《哈尔茨山游记》来核对,冯志伟的背诵确实一字不差,果然是《哈尔茨山游记》的第一句话。
冯志伟年轻时学习外语是非常刻苦的。为了学习英语,他就买来一本中型的英汉词典,一页一页地记忆和背诵,背完一页就撕去一页。几年来,冯志伟先后撕完了英汉、俄汉、法汉、德汉、日汉等多部词典,他就用这样的笨方法,学会了多门外语。学习外语几乎成了他的一种爱好。当然,掌握了多门外语,使他对语言现象的观察有了若干个参照系,他有可能参照多种语言来研究某一种语言的特殊问题。这大概也是冯志伟能够在语言研究中取得成功的一个原因吧!
六、韩国大田:用英语讲授自然语言处理技术
2001年,他应邀到韩国科学技术院(Korean Advanced Institute of Science and Technology,简称KAIST)电子工程与计算机科学系担任教授。KAIST是韩国著名的理工科大学,学生都是通过严格的考试和数学物理竞赛选出来的精英。他用英语给该系博士研究生开了“自然语言处理-II”(Natural Language Processing-II,简称NLP-II)这样一门课。在备课中,他发现美国Colorado大学的Daniel Jurafsky和James Martin的新著Speech and Language Processing——An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition(《语音和语言处理–自然语言处理,计算语言学和语音识别导论》)是一本很优秀的自然语言处理的教材,这本教材覆盖面非常广泛,理论分析十分深入,而且强调实用性和注重评测技术,几乎所有的例子都来自真实的语料库。他常常想,如果能够把这本优秀的教材翻译成中文,让国内的年轻学子们也能学习本书,那该是多么好的事情!
2002年,在他回国参加的一次学术讨论会上,电子工业出版社的编辑找到冯志伟,说他们打算翻译出版此书。这位编辑说,电子工业出版社已经进行过调查,目前国外绝大多数大学的计算机科学系都采用此书作为“自然语言处理”课程的研究生教材,他们希望冯志伟亲自来翻译这本书,与电子工业出版社配合,推出高质量的中文译本。电子工业出版社的意见与冯志伟原来的想法不谋而合,于是,他欣然接受了这本长达600多页的英文专著的翻译任务,于2003年开始进行翻译。
冯志伟虽然已经通读过这本书两遍,对于这本书应该说是有一定的理解了,但是,亲自动手翻译起来,却不像原来想象的那样容易,要把英文的意思表达为确切的中文,下起笔来,总有绠短汲深之感,大量的新术语如何用中文来表达,也是颇费周折和令人踌躇的难题。在韩国教授期间,冯志伟利用全部的业余时间进行翻译,晚上加班到深夜,连续工作了11个月,当翻译了14章(全书的三分之二)的时候,他不幸患了黄斑前膜的眼病,视力出现障碍,难于继续翻译工作,还剩下7章(全书的三分之一)没有翻译,“行百里者半九十”,这7章的翻译工作究竟如何来完成呢?正当冯志伟束手无策、一筹莫展的时候,中国科学院软件研究所的一位年轻的副研究员表示愿意继续他的工作,协助冯志伟完成本书的翻译。这位副研究员把剩下的7章逐一翻译成中文,通过计算机网络一章一章地传给在韩国的冯志伟,冯志伟使用语音合成装置,让计算机把书面的文本读出来,冯志伟通过读出来的语音进行译文的校正。语音合成技术使冯志伟克服了视力不济的困扰,帮助他迈过了重重难关。2004年,在两人的通力合作下,全书的翻译总算大功告成了,由电子工业出版社以《自然语言处理综论》的书名出版。
这本书的出版受到广大读者的欢迎,而冯志伟为此却损害了自己的视力,以后,他不得不借助于语音合成装置来阅读了。
七、荣获维斯特奖
2006年6月30日,联合国教科文组织奥地利委员会(Austrian Commission for UNESCO)、维也纳市(City of Vienna)和国际术语信息中心(INFOTERM)给冯志伟教授颁发了维斯特奖(Wüster Special Prize),以表彰他在术语学理论和术语学方法研究方面做出的突出贡献。维斯特(Eugen Wüster,1898-1977)是奥地利著名科学家,是术语学和术语标准化工作的奠基人。维斯特奖是专门为那些对于术语学和术语标准化工作有出色成就的科学家而设置的。
冯志伟获得维斯特奖,说明他数十年的努力终于得到了国际的承认。可惜的是,冯志伟的视力越来越差,当他接受维斯特奖的时候,已经不能看清奖章上面的图案了,他为我国计算语言学和术语学而付出的代价确实太大了。
冯志伟今年满七十岁,著述颇丰,多有建树,其内容涉及不少领域,引起国内外不少同行专家的广泛关注和高度评价。他现在已在多家著名出版社出版了二十余部专著,翻译国外重要论著数十篇(部),并用汉、英、法、德文等撰写了有代表性的重要学术论文百余篇,在国内外许多著名刊物上发表。其著述不胜一一列举。其代表作如:专著《数理语言学》《自动翻译》《现代语言学流派》《现代汉字和计算机》《中文信息处理与汉语研究》《数学与语言》《自然语言机器翻译新论》《应用语言学综论》《应用语言学新论》《计算语言学基础》《计算语言学探索》《机器翻译研究》《现代术语学引论》《自然语言的计算机处理》《汉语教学与汉语拼音正词法》《汉字的历史与现状》(德文版),译著《自然语言处理综论》等等。他还主持和参与了若干个国家标准的制定,为我国标准化做出了贡献。他又是《中国大百科全书》《计算机百科全书》《数学辞海》《中国少年百科全书》等大型工具书的撰稿人,为这些权威性工具书写了不少重要条目。他还为一些当代语言学名著的外文版写导读,如《应用语言学中的语料库》《语言学中的数学方法》《译者的电子工具》《人工智能在第二语言教学中的应用》,帮助国内读者阅读外文原著。
冯志伟在中国传媒大学招收计算语言学专业方向的博士生,不少毕业的博士生在学术上取得了突出的成绩,他们已经成为我国计算语言学的骨干力量。
冯志伟经过数十年的艰苦努力,终于实现了他使用数学方法研究语言的愿望,并把语言学和计算机科学非常自然地结合起来,取得了多方面辉煌的成就,为语言学、计算机等学科做出了重要贡献。他的这些光彩、亮丽、丰硕的成果琳琅满目,异彩纷呈,多么令人欣慰、激动呀!
过去的著名语言学家有的只懂社会科学,不懂自然科学;有的只懂古代汉语、现代汉语或普通语言学,一般只着重研究汉语的语音、词汇、语法或文字等某一个方面的问题,研究的问题和领域比较单一,即使一些佼佼者,至多也只懂得两三门外语,视野不够开阔,语言的纵横向对比研究都不够,有一定的局限性。而冯志伟先生却懂得理科中的数学、物理、化学和计算机科学,又懂得语言学中的古代汉语、现代汉语、普通语言学和文字学。深研过汉、英、法、德、俄、日等语言的语音、词汇和语法,并把各方面的知识紧密地结合起来综合应用,在计算机上加以实现,成为文理兼通的语言学专家。冯志伟教授不但能在计算机科学系讲授理科的机器翻译的方法和技术研究、自然语言处理的算法研究、计算语言学专题研究等艰深的博士课程,而且也能够在中文系讲授汉魏六朝散文、唐诗、宋词、古代汉语、现代汉语、汉字的历史与结构等饶有风趣的课程。他还能给学生们辅导英、德、法、俄、日等外国语课程。他的散文和诗歌也写得很好,他还是一位翻译专家,出版过翻译著作。这样的人才是很罕见的。
然而,冯志伟对于他的这些成就却看得很平淡,他很少对别人谈起他的成就。除了平时喜欢喝白开水和游泳之外,他几乎没有什么特殊的嗜好,他每日粗茶淡饭,过着非常简朴的生活。他从来不以为自己是什么“专家”,没有任何架子,总是谦和地对待他的学生和周围的同志。在北京大学中文系59级同学纪念册上,他写下了这样的人生感言:“先天不足,后天失调;岁月蹉跎,艰辛备尝;老当益壮,穷且越坚;平生无悔,褒贬由之。”他始终认为自己是一个很平常的普通人,对于别人的褒贬,他是看得很平淡的。他对生活的信条是:“在科学探索的过程中,我所知道的东西终究是有限的,而我不知道的东西始终是无限的,只要平生无悔就很好了!”
今年是2009年,从1957年冯志伟下决心来研究数学方法在语言学中的应用这个问题算起,他为我国计算语言学的开创和发展呕心沥血地奋斗了整整五十二年的时间。由于长期超负荷工作而积劳成疾,付出了他自己的健康,损害了他的视力,想到他这些不幸,我们就感到一阵阵辛酸。每当我们回顾冯志伟在五十二年的科学研究中走过人生历程时,总有一种悲壮的感觉。
冯志伟先生,我们希望您珍惜自己的身体健康,保护您的视力,继续为文科和理科的沟通,为我国科学技术事业的发展,做出更大的贡献。
(张在云 昆明 云南大学成人教育学院650091)
2006年12月初,教育部语言文字应用研究所的著名语言学家冯志伟先生从北京回云南家乡扫墓、探亲、访友。在此之际,笔者有幸拜访了这位蜚声国内外的学者。此前,笔者去过几次北京,但由于冯先生退休后长期在德、韩等国讲学,所以,都未谋面。八年阔别后,老朋友、老同行相见,分外亲热,笔者和他进行了多次长谈,又浏览了他惠赠的新著,更加深入地了解了他这几年的学术活动与成就,遂成此文。
在我国,像冯志伟这样文理兼通的跨学科专家是比较少见的。
冯志伟是教育部语言文字应用研究所的学术委员会委员,又是中国科学院自动化研究所国家模式识别重点实验室的学术委员会委员,横跨了语言学科和自动化学科;他是中国语文现代化学会副会长,又是中国人工智能学会理事,横跨了语文研究和人工智能研究;他是国家社会科学基金语言学科的评审委员,又是国家自然科学基金和北京市自然科学基金计算机学科的评审委员,横跨了语言学科和计算机学科。在国外,他是德国特里尔大学(University Trier)文学院的教授,又是韩国科学技术院(KAIST)电子工程与计算机科学系(EECS)的教授,同样也横跨了文理两科。在学术发展的历史长河中,语言学属于人文科学,计算机和自动化属于自然科学。语言学的基础是语文,计算机和自动化的基础是数学,在传统的教育体系中,语文是文科的典型代表,数学是理科的典型代表,它们之间的区别泾渭分明。冯志伟能够在性质差异如此大的不同学科中取得重要成就,并成为这些学科的学术带头人,他确实是一位在信息时代这个特殊的环境下成长起来的新型的语言学者。
一、北大十年:数理语言学之梦
1939年4月15日冯志伟出生于昆明大东门外(今天长春路东段)的一个小商人之家,下有弟妹六人,他排行在前。父母虽然文化不高、负担很重,却很有卓识远见,除每天起早睡晚搞好土杂店的经营、节衣缩食来供养七个子女念书外,尚能严格教育和督促子女搞好学习。冯志伟自幼聪慧沉静,善于思考,勤奋好学。他在长春路东升小学读书时,就品学兼优,成绩出众,初高中都以第一名的高分考入全省著名的重点学校——昆明一中就读,是昆明一中有名的顶尖学生,文理兼能,多次受到学校和任课教师的嘉奖。这个学校曾培育了无数的英才,如获诺贝尔奖的著名物理学家杨振宁、著名哲学家艾思奇、著名史学家吴晗、著名出版家黄洛峰等等。冯志伟从初一到高三,年年名列前茅,他在默默地追赶着那些曾经给昆明一中带来声誉的前辈老校友们。
1957年高中毕业时,冯志伟才十八岁,是班上年龄最小的学生之一,却以优异的成绩考入了北京大学地球化学专业。地球化学在1957年属于国家重点发展的尖端学科之一,在地球科学里面,也是最先进的学科。冯志伟非常热爱这个专业,当时也没有想从事其他学科的想法。他一心想研究化学元素在地球上的分布规律,兴趣主要在稀有元素上。
他入学后对五光十色的矿物发生了浓厚的兴趣,如醉如痴地观察着不同结晶形状的各种矿物,六方晶系的钻石、方斜晶系的石墨……冯志伟深深地被大自然的奥秘吸引住了,他曾经想研究矿物中最为人们喜爱的宝石,探索各种宝石成矿的规律。
就在冯志伟认真学习地球化学的前后,国外兴起了数理语言学,建立起了完善的理论和方法,并在大学中开设了数理语言学课程,从而使数理语言学作为一个独立的学科出现在现代语言学的百花园中,日益芬芳、灿烂。
1956年,我国开始注意到国外数理语言学的兴起和发展,在国家科学研究的发展规划中,确立了称做“机器翻译,自然语言翻译规则的建立和自然语言的数学理论”的课题。这个课题包括两部分:一部分是机器翻译,另一部分是自然语言的数学理论,也就是今天所说的“数理语言学”。
不久,我国语言学家刘涌泉在《中国语文》上发表了《谈数理语言学》一文,非常简要地介绍了数理语言学这个新兴学科的主要内容和研究方法。但是,由于数理语言学研究要求研究者同时兼具语言学和数学的学科背景,而当时我国的语言学界,还没有这样的学者,因此,虽然数理语言学与机器翻译的研究同时列入了我国的科学研究发展规划,实际上只开展了机器翻译的研究,并没有开展数理语言学的研究。由于缺乏文理兼通的人才,我国的数理语言学处在难产中。
北京大学为我国数理语言学的研究造就了这样的人才。北京大学高举五四“民主”和“科学”的大旗,学术空气非常自由,图书馆藏书丰富,学生可以阅读到各种最新的科学杂志,了解到国内外最新的学术发展动向。这种学术自由的气氛大大地开阔了学生的眼界,使他们有可能紧紧跟上国际学术发展的步伐。当时正在北京大学地球化学专业研究化学元素分布规律的冯志伟,在图书馆馆藏的1956年出版的美国《信息论》(IRE Transaction, Information Theory)杂志上,偶然看到了美国语言学家乔姆斯基(N.Chomsky)的论文《语言描写的三个模型》(Three models for the description of language),遂被乔姆斯基在语言研究中的新思想深深地吸引了。乔姆斯基追求语言描写的简单性原则,为了使用有限的手段描述变化无穷的自然语言,他在文章中建立了形式语言和形式文法的新概念,把自然语言和计算机程序设计语言置于相同的平面上,用统一数学方法进行解释和定义,提出了语言描写的三个模型。用数学方法描写的这三个模型既可以用于描写自然语言,又可以描写计算机程序设计语言,达到了“有限手段的无限运用”的目标。冯志伟预感到这种语言的数学描写方法,将会把自然语言和程序设计语言紧密地结合起来,在信息的处理和研究中发挥出巨大的威力。他经过反复考虑,下决心来研究数学方法在语言中的应用这个问题,并经学校同意,从理科转到中文系语言学专业从事语言学的学习。转入语言学专业之后,冯志伟一面学好传统语言学的各门课程和外语,一面利用课余时间,继续研究数理语言学的问题,他尽量充分地利用北京大学图书馆丰富的藏书和最新的杂志,跟踪国际上数理语言学发展的足迹,遂成为了班上名列前茅的学生。
1961年秋天,团中央机关建立了这样一个制度:团中央书记处的每一位书记至少直接联系一个团支部,作为了解情况和结交青年朋友的一个渠道。1961年11月,北京市团市委为团中央第一书记胡耀邦选定北京大学59级语言专业团支部作为联系点。胡耀邦首先找这个班的团支部书记和宣传委员了解情况,问他们:“你们同学中有学习特别专心的吗?”他们回答介绍说:“我们班有个叫冯志伟的同学学习特别好,他已经学了英语、俄语、德语和日语,而且达到了相当水平,但是好像不特别关心政治。”胡耀邦表示:“我希望找冯志伟同学亲自谈一谈。”
团中央第一书记邀请的消息传到了北京大学,同学们都非常激动。1961年11月11日,北京大学团委安排冯志伟和其他4名同学一起到住在富强胡同的胡耀邦家做客。晚饭后,他们乘公共汽车进城,当时北京的公交车数量严重不足,乘车的人很多,他们没有挤上从颐和园路过北大开往西直门的32路汽车,急中生智,干脆从北大乘车到起点站颐和园,再从颐和园乘车直奔北京市内,当他们赶到富强胡同时已经是晚上9点多钟了。胡耀邦还在一直等待着同学们,等得有些着急了。
年轻的同学们在会客室坐下,胡耀邦给每个同学递上了一个苹果,依次询问每个人的姓名、籍贯。当胡耀邦问到冯志伟的时候,他说:“你就是那个学习特别用功的同学冯志伟吗?你学习那么努力,挨批了没有?”冯志伟笑着回答说:“其实我学习只是出于对语言学的兴趣,自己只是想多学点东西而已。”
冯志伟对于外语的领悟很灵敏,到1961年底的时候,他已经学会了4门外语,而且能够使用这4种外语阅读数理语言学的外文文献了。由于他对数理语言学有强烈的兴趣,加之数理语言学是交叉学科,冯志伟除了学好中文系的语言学课程之外,还要自学数学和外语等不同的学科,时间比别的同学紧,没有很多的时间来关心政治。而当时学校的政治气氛特别浓,不太主张学生读书,冯志伟就显得有些古怪,明明是学中文的文科学生,一有空就做些数学题,还经常读点外文书,这在当时是很不合拍的。有的同学认为冯志伟是在走“只专不红”的道路,对他颇有微词。所以,第一次见面,胡耀邦就已经洞察秋毫,关切地问冯志伟“挨批了没有?”。
冯志伟坦率地向胡耀邦汇报了自己的想法,讲述了自己学习数理语言学的动机和过程。胡耀邦听后,正色地对冯志伟说:“事实将证明你的道路是正确的!”胡耀邦的话斩钉截铁,掷地有声。
胡耀邦还严肃地回过头来对其他同学说:“外语学习是很重要的,我们需要对外交流,语言是很好的交流工具呀,懂了外语可以扩大眼界。”同学们专心地聆听着,默默地思考着,会客室的气氛显得特别肃穆。
接着,胡耀邦换了语气,开始和大家轻松地聊天。他告诉大家:“学生的主要任务是学习知识。我在高中的孩子写了篇作文,老师出题目说,问‘什么是学生的主要任务’?我的孩子写道:学生的主要任务是提高政治水平。”他笑着对同学们说:“现在不少人对学生的主要任务认识不很清楚,其实,道理很简单,学生的主要任务是学习。”
谈话结束时已经很晚了。同学们告别了胡耀邦,一路谈论着他的教导,总算赶上了末班车顺利地回到了北京大学。
几天后,胡耀邦又邀请同学们到他家做客,并且在院子里和同学们一起照相留影。
胡耀邦的亲自接见和亲切谈话给了冯志伟极大的鼓舞,从此,他学习数理语言学更加理直气壮了。
1964年,冯志伟大学毕业,考上了北京大学语言学理论的研究生,经导师岑麒祥教授同意,他的研究生毕业论文的题目定为《数学方法在语言学中的应用》,是我国语言学研究中首次系统地、全面地来研究数理语言学这个新兴学科的论文。
这样,我国的数理语言学研究便首先在北京大学正式地开展起来。北京大学中文系的著名语言学家王力先生和朱德熙先生都支持冯志伟的数理语言学研究,王力先生曾对冯志伟说:“语言学不是很简单的学问,我们应该像赵元任先生那样,首先做一个数学家、物理学家、文学家、音乐家,然后再做一个合格的语言学家。”朱德熙先生曾对冯志伟说:“数学和语言学的研究都需要有逻辑抽象能力,在这一方面,数学和语言学有共同性。”北京大学的这些第一流的学者,总是站在科学的最前沿来看待学术的发展,他们的鼓励给了冯志伟以巨大的力量。
但是这时候发生了一件事情,就是1966年的5月25日,第一张马列主义的大字报贴到了北大饭厅的门口。冯志伟记得很清楚,那一天是5月25日,因为那一天他要去买一本法文词典,当时的《法汉词典》编得很不好,很简单,单词太少了。冯志伟学过日文,可以阅读日文文献,他的导师岑麒祥教授说:“你去买本《仏和词典》吧!”(《仏和词典》是《法日词典》的日语写法),于是,冯志伟就到五道口的外文书店买了一本《仏和词典》。中午时分,冯志伟刚刚在五道口外文书店旁边的小饭馆吃完中饭回到北京大学,看到学校的大饭厅前人头攒动。他伸头一看,大饭厅前面的墙上贴着大字报呢。上面写着“陆平、彭佩云你们要走往何方?”,言词很激烈,陆平是北大的校长,彭佩云是北大的党委书记(彭佩云现在是全国妇联的领导)他们俩当时被认为是北京市委的黑线人物,当时彭真已被揪出来了。冯志伟一看到大字报,就知道他的论文泡汤了,一场很大的革命就要来临了。果然,过了几天,《人民日报》就发表了社论说,“这是一张马列主义的大字报”,一下把火点起来了。北大进入“文化大革命”的混乱状态,王力先生和朱德熙先生等等,都被打成反动学术权威,冯志伟的数理语言学研究也随之失去了支持,这个新兴学科的研究被这场“革命”扼杀在了襁褓之中。冯志伟的数理语言学之梦破灭了,他随之离开了北京大学,被分配到云南边疆的一所中学里教物理课。
二、边疆教书:“文革”浩劫中的艰苦探索
在云南边疆的中学任教期间,冯志伟不信“读书无用论”,不埋怨大材小用,更不考虑生活的艰苦和清贫,除身体力行,认认真真地教好学生,努力搞好本职工作外,还朝朝暮暮,年复一年,利用一切业余时间,密切地关注着国外学术发展的动向。数理语言学仍然像磁石一样强烈地吸引着他。在云南边疆那样闭塞的环境中,他设法利用业余时间,潜心研究数理语言学的问题。在信息不足、资料缺乏的困难条件下,他阅读了所能搜集到的各种关于数理语言学的资料。他懂得英、法、德、俄、日等五种外国语,阅读了散见于各种外文书刊中的数理语言学文献,紧跟着世界上数理语言学发展的步伐。就在“读书无用论”甚嚣尘上的时候,冯志伟总结了当时国外数理语言学的成果,于1975年,以昆明五中教师的名义,写成了《数理语言学简介》的长篇文章,在重庆的一家自然科学杂志《计算机应用与应用数学》上发表,向国内计算机界和数学界详尽地介绍了数理语言学的最新情况。这一篇文章犹如空谷之足音,使当时被文化大革命封闭了世界学术进展的中国学术界了解到国外信息时代已经到来的最新动态。冯志伟在这篇文章中兴奋地告诉广大读者:“信息时代的到来,使得语言学、数学和计算机科学结下了不解之缘,语言研究和计算机技术已经到了非结合不可的地步了!”如今,我国计算语言学界的许多著名学者,就是从这篇文章中最早了解到语言学与数学的联系,从而决心走上研究计算语言学道路的。他们当时对冯志伟这个中学老师的名字极为惊叹,没有想到在云南边疆的中学里竟然有这样一位能够洞察国际学术最新动态的高手!
在云南边疆的那些日子里,冯志伟利用业余时间潜心研究了汉字熵值的测定问题。汉字的“熵”(entropy)是汉字所含信息量大小的数学度量。为了进行语言文字的信息处理,必须知道文字的信息量,因此,也就必须测定文字的熵。这是信息时代语言文字处理应该研究的基础性问题。近几十年来,国外学者已陆续测出一些拼音文字字母中的熵,而汉字数量太大,各个汉字的出现概率各不相同,因此,要计算包含在一个汉字中的熵是一个十分复杂和繁难的问题。
为了计算汉字的熵,首先需要统计汉字在文本中的出现频度,由于20世纪70年代我们还没有机器可读的汉语语料库,哪怕小规模的汉语语料库也没有,冯志伟只得根据书面文本进行手工查频,他请了几个志同道合的朋友,用手工帮助他进行汉字频度的调查。他给这些朋友每个人发了一箱卡片,请他们帮助统计在选定样本资料中的汉字出现的频度,并且把这些频度记录在卡片上。在朋友们的帮助下,冯志伟用了将近10年的时间,对数百万字的现代汉语文本(占70%)和古代汉语文本(占30%)进行了手工查频,从小到大地逐步扩大统计的规模,建立了6个不同容量的汉字频度表,最后根据这些不同的汉字频度表,逐步地扩大汉字的容量,终于计算出了汉字的熵。
为了给汉字熵的测定建立一个坚实的理论基础,冯志伟提出了“汉字容量极限定律”。他用数学方法证明:当统计样本中汉字的容量不大时,包含在一个汉字中的熵随着汉字容量的增加而增加,当统计样本中的汉字容量达到12366字时,包含在一个汉字中的熵就不再增加了,这意味着,在测定汉字的熵时,统计样本中汉字的容量是有极限的。这个极限值就是12366字,超出这个极限值,测出的汉字熵再也不会增加了。在“汉字容量极限定律”的基础上,冯志伟在包含12370个不同汉字的统计样本的范围内,初步测出了在考虑语言符号出现概率差异的情况下,包含在一个汉字中的熵为9.65比特。由此得出结论:从汉语书面语总体来考虑,在现代汉语和古代汉语的全部汉语书面语中,包含在一个汉字中的熵是9.65比特。20世纪80年代,我国北京航空学院计算机系刘源教授使用计算机统计汉字的频度,并计算出汉字的熵为9.71比特。刘源教授使用计算机计算的结果与冯志伟手工测定的结果相差不大,足以说明冯志伟对于汉字熵的测定是十分认真的。冯志伟这项极为重要的科学研究说明,由于汉字的熵大于8比特,所以,汉字不能使用8比特的单字节编码,而要使用16比特的双字节编码。这项研究为汉字信息的计算机处理提供了基本的数据,对汉字编码、汉字改革和汉语的规范化都有重要的指导意义。
三、从北京到法国:研制世界上第一个汉语到多种外语的机器翻译系统
粉碎“四人帮”之后,迎来了科学的春天。高等学校开始招生。毛泽东主席生前对于大学招生做过指示:“大学还是要办的”,但接着他又指示:“我这里主要说的是理工科大学还要办”。毛泽东在他的指示中没有说文科大学还要办。这样,大学招生时,首先恢复的是理工科大学招生,而文科没有招生。冯志伟渴望着早日回到科学研究的岗位上去,他决定,既然文科不招生,那就报考理工科,于是,他报考了中国科学技术大学研究生院,毅然参加理工科大学的入学考试。1978年,原来毕业于北京大学中文系研究生的文科学生冯志伟,以优异的理科成绩考上了中国科学技术大学研究生院信息科学系的研究生,又开始了理科的学习,从云南边疆回到了北京。
在中国科学技术大学研究生院学习期间,冯志伟很快就在理工科的杂志上发表了论文。1979年,《计算机科学》杂志创刊,他就在该杂志创刊号上发表了《形式语言理论》的长篇论文,用严格的数学表达方式向计算机科学界说明数理语言学中的形式化方法如何推动了当代计算机科学的发展,并且指出:在数理语言学研究中发展起来的形式语言理论,事实上已经成为了当代计算机科学不可缺少的一块重要理论基石,计算机科学绝不可忽视形式语言理论。许多人认为这篇文章一定是资深的计算机科学家写的,后来,当计算机界的一些专家了解到,这篇论文的作者竟然是文革前北京大学中文系的一名文科研究生的时候,感到非常惊讶。
不久,冯志伟被中国科学技术大学研究生院选送到法国格勒诺布尔理科医科大学应用数学研究所(IMAG)自动翻译中心(GETA)学习,师从当时国际计算语言学委员会主席、法国著名数学家沃古瓦(B.Vauquois)教授,并专门研究自动翻译和数理语言学问题。沃古瓦教授是国际计算语言学委员会的创始人,是当时国际计算语言学的领军人物,他领导的GETA在机器翻译的理论和实践上都做出了出色的成绩。冯志伟在GETA良好的学习环境中,可以了解到机器翻译发展的最新情况,可以学习到当代机器翻译最前沿的技术。冯志伟喜欢数学,而沃古瓦教授是数学家,他们都深知自然语言的形式理论对于构建机器翻译系统的重要性。
在法国留学期间,冯志伟的主要工作是进行汉语与不同外语的机器翻译研究。开始时,他使用的自然语言形式理论是乔姆斯基的短语结构语法,他试图使用短语结构语法来进行汉语的自动分析。早在1957年,冯志伟就接触到乔姆斯基的形式语言理论,他对乔姆斯基的理论是有深入了解的。乔姆斯基根据形式语法的原理,提出了短语结构语法作为自然语言形式描述的一种手段,这种语法在自然语言处理中得到了广泛的使用。国内外的许多机器翻译系统都采用乔姆斯基的短语结构语法作为系统设计的基本理论依据。根据乔姆斯基的短语结构语法,表示句子结构的树形图中的每一个结点只有一个相应的标记,结点与标记之间的这种关系是一种单值标记函数的关系。这种单值标记函数表示的语言特征是十分有限的,因而在机器翻译中进行汉语自动分析时,会出现大量的歧义问题,难于区分句法结构相同而语义结构不同的汉语句子,这种分析法是短语结构语法在分析汉语时一个致命的缺点。
当时,冯志伟在法国研制开发机器翻译系统的实践中,就已敏锐地认识到短语结构语法的这种致命缺点。
有一天,沃古瓦教授和冯志伟讨论汉语自动分析的问题。冯志伟坦率地向沃古瓦教授说:“乔姆斯基的短语结构语法对于法语和英语的分析可能没有多大问题,可是,用这种语法来分析汉语,几乎寸步难行”。
沃古瓦教授用好奇的目光看着冯志伟,他希望冯志伟进一步阐述自己的看法。冯志伟举例作了如下说明:
在汉语中可以说“点心吃了”,实际上是“点心被吃了”,但汉语一般不用“被”字;汉语中还可以说“张三吃了”,实际上是“张三把点心吃了”。“张三”是个名词短语NP(Noun Phrase),“点心”也是个NP,“吃了”是个动词短语VP(Verb Phrase),这两个句子的规则都是:S→NP+VP,其中,S(Sentence)表示句子,它们的层次相同,词序相同,词性也相同,但却有截然不同的含义,一个是被动句,一个是主动句。我们怎么来解释这样的差异呢?如果使用短语结构语法,用计算机来分析这两个不同的句子,计算机最后做出来的肯定是一样的树形图,它们的差别只是在叶子结点上的词不一样,整个树形图的上层都是同样的S→NP+VP,这样结构相同的句子为什么会有不同的语义解释,从而产生不同的含义呢?使用短语结构语法显然是解释不了的,而中文里到处都是这样的句子,因为中文里的被动关系有不同的表示方法,有时主动和被动在形式上没有明显的区别,可以从句子的上下文和意念上来加以区分。在这种进退两难的局面下,唯一的出路就是根据汉语语法的特点改进乔姆斯基的短语结构语法,设法使用一种新的方法来描述汉语。
沃古瓦教授耐心地听完了冯志伟的说明,从沙发上站起来惊叹地说:“汉语真是一种langue terrible(法语:糟糕的语言)”。他说:“哪种语言能够不分主动和被动,‘人吃了’和‘被人吃了’怎么能是一样?怎么这么乱?”
冯志伟向沃古瓦教授解释道:其实中国人一点儿也不感觉到乱,中国人在说话时分辨得很清楚,因为我们中国人知道在一般情况下,人是不能被吃的。所以“小王吃了”的语义不能是“小王被吃了”,而点心不吃东西,所以“点心吃了”必定是“点心被吃了”。汉语是靠词汇的固有语义来解决语法问题的,但是对于法国人来讲,并不存在这样的问题。所以,我们不能按照法语的思考方法来处理这个汉语的问题,我们必须另辟蹊径!
沃古瓦教授是一个知识广博、眼界开阔的学者,他鼓励冯志伟沿着这个思路继续探索。他对冯志伟说:“乔姆斯基的短语结构语法也不一定永远正确嘛!”
在冯志伟告别时,沃古瓦教授兴奋地说:“我相信,你一定能找出一种汉语自动分析的新方法。”
这次和沃古瓦教授的谈话使冯志伟深刻地认识到,乔姆斯基的短语结构语法在汉语自动分析时确实遇到了极大的困难。这种困难甚至连沃古瓦教授这样世界第一流的计算语言学家也承认了。作为中国的科学工作者,他必须想出一种新的办法,来克服短语结构语法的缺点。不然,他现在进行的汉语自动分析就很难搞下去了。
这一天夜里冯志伟很不平静,翻来覆去总在思考这个问题。第二天早晨冯志伟走到沃古瓦教授的办公室,他明确地向沃古瓦教授提出:我们正面临一个新的挑战,我们必须思考一种新的语法理论来解决这个问题。沃古瓦教授完全同意冯志伟的意见,他进一步鼓励冯志伟探索新的理论和方法来解决汉字自动分析中出现的这个困难问题。
在沃古瓦教授的鼓励下,冯志伟对这个问题反复进行了思考。他观察到:“小王吃了”和“点心吃了”这两个貌似相同的句子在词汇的语义上有很大的不同,“小王”在语义上是一个“人”,一般情况下,“人”是“吃了”这个行为的主动者,而“点心”在语义上是“食品”,一般情况下,“食品”是“吃了”的被动者,是“吃了”的对象。在短语结构规则S→NP+VP中,如果我们不把NP看成一个不可分割的单元,而把NP进一步加以分割,使用若干个特征来代替NP这个单一的特征,就有可能在计算上把它们分解开来了。例如,在“小王吃了”中,我们把NP分解为“NP|人”两个特征,在“点心吃了”中,我们把NP分解为“NP|食品”两个特征。在计算机处理语言时,特征也就是“标记”,冯志伟提出,如果我们使用“多标记”来代替短语结构语法中的“单标记”,就有可能大大地提高短语结构语法描述语言的能力,就可以使用改进后的这种语法来描述汉语,实现汉语的自动分析。这就是冯志伟提出的关于“多标记”的设想。
冯志伟对于短语结构语法的另一个改进是使用多叉树代替短语结构语法的二叉树。乔姆斯基曾经提出乔姆斯基范式,他认为自然语言的结构具有二分的特性,因此他主张在自然语言处理中使用“二叉树”(binary-tree)。冯志伟认为在汉语中存在着“兼语式”和“连动式”等特殊句式,它们都不具备二分的特性,因此,冯志伟主张使用“多叉树”来代替“二叉树”,从而提高短语结构语法描述汉语的能力。例如,“请小王吃饭”是一个兼语式的句子,其中的“小王”作前一个动词“请”的宾语,又做后一个动词“吃饭”的主语,在计算机处理时,究竟是分析为“请/小王吃饭”,还是“请小王/吃饭”,我们将处于进退维谷的境地。如果采取三分,把这个句子分析为“请/小王/吃饭”,可以避免分析树的交叉,得到唯一的分析结果。
经过在计算机上编写程序进行潜心的钻研和反复的试验,冯志伟提出了“多叉多标记树模型”(Multiple-labeled and Multiple-branched Tree Model,简称MMT模型)。在MMT模型中,他采用多值标记函数来代替短语结构语法的单值标记函数,使得树形图中的一个结点,不再仅仅对应一个标记,而是对应若干个标记,他还使用多叉树来代替二叉树,这样便大大地提高了树形图的标记能力,使得树形图的各个结点,都能记录足够多的语法语义信息,把句子中所蕴含的丰富多采的信息充分地表示出来。这种多值标记函数的理论,从根本上克服了乔姆斯基的短语结构语法在描述自然语言时的严重缺点,提高了其有限的分析能力,限制了其过强的生成能力。显而易见,冯志伟的MMT模型是对乔姆斯基短语结构语法的一个带有实质意义的重要改进,这个模型提出后,立即引起了国际计算语言学界的高度重视,在1982年于布拉格召开的国际计算语言学会议(COLING'82)上,在1983年于北京召开的国际中文信息处理会议(ICCIP'83)上,在1984年于香港召开的东南亚电脑会议(SEARCC'84)上,冯志伟都介绍了他提出的MMT模型。沃古瓦教授在国际计算语言学会议(COLING'82)的大会发言中,也赞扬了冯志伟的研究工作。COLING是计算语言学界最高水平的学术会议,冯志伟是我国第一个参加COLING会议的学者。他在这些国际会议上的发言,引起了国际学术界对汉语自动句法分析和汉语自动语义分析的兴趣。他的MMT模型是我国学者在汉语“自动句法-语义分析”方面最引人注目的早期研究成果,直到20世纪90年代以后,我国计算语言学界才开始注意到汉语的“自动句法-语义分析”的研究,比冯志伟的MMT模型晚了十几年。
就在冯志伟提出MMT模型的同时,国外一些计算语言学家也看到了短语结构语法的局限性,分别提出了各种手段来改进它。例如1983年卡普兰(R.M.Kaplan)和布列斯南(J.Bresnan)提出的“词汇功能语法”、1983年马丁·凯依(Martin Kay)提出的“功能合一语法”、1985年盖兹达(G.Gazdar)等提出的“广义短语结构语法”、1985 年珀拉德(C.Pollard)提出的“中心语驱动的短语结构语法”等,都采用了“复杂特征”来描述自然语言,他们所谓的“复杂特征”实际上也就是冯志伟提出的“多值标记”,名异而实同。所以,冯志伟提出的MMT模型,是世界计算语言学者对乔姆斯基的短语结构语法进行改进的一个重要方面和不可分割的组成部分,MMT模型是20世纪80年代较早提出的一个旨在改进短语结构语法的形式化模型,当时我国学者在这方面的研究在国际上是处于前沿地位的。
1984年,荷兰阿姆斯特丹北荷兰出版社出版的多卷专著《计算机科学基础研究》第9卷《自然语言处理的计算机模型》一书(由意大利米兰大学主编)中,曾详细介绍了冯志伟的MMT模型,并评论说:“冯氏关于独立分析-独立生成的主张,关于尽可能地从源语言分析中获取多方面信息的主张,是当前自然语言处理研究中的一个重要进展”。
冯志伟还结合汉语的特点和需要,研究了采用MMT模型来解决汉语自动分析的各种问题。他指出,在汉语的自动分析中,采用“多值标记”的必要性更加明显。这是因为汉语的句子不能只用词类或词组类型等简单特征来描述,汉语句子各个成分的词类、词组类型、句法功能、语义关系、逻辑关系之间,存在着极为错综复杂的关系,如果只采用简单特征,就无法区分各种歧义现象,达不到汉语自动处理的目的。
具体地说,这是由于:(一)汉语句子中的词组类型(或词类)与句法功能之间不存在简单的一一对应关系;(二)汉语句子中词组类型(或词类)和句法功能相同的成分,它们与句子中其它成分的语义关系还可能不同,句法功能和语义关系之间也不是简单地一一对应的;(三)汉语中单词所固有的语法特征和语义特征,对于判别词组结构的性质,往往有很大的参考价值,除了词组类型这样的简单特征之外,再加上单词固有的语法特征和语义特征,采用多值标记来描述,就可以判断词组结构的性质。
冯志伟还提出了用于多值标记的汉语“特征-值”系统,特征可分为静态特征和动态特征两大类。其中,静态特征有词类特征、单词的固有语义特征和它的值、单词的固有语法特征和它的值;动态特征有词组类型特征和它的值;句法功能特征、语义关系特征、逻辑关系特征。在自动句法语义分析中,静态特征是计算机进行运算的基础,计算机依赖于这些预先在词典中给出的静态特征,通过有穷步骤的运算,逐渐计算出各种动态特征,从而逐步弄清楚汉语句子中各个语言成分之间的关系,达到自动句法语义分析的目的。
冯志伟在法国留学期间,了解到法国语言学家特斯尼耶尔(L.Tesniere)的从属关系语法和语法“价”的概念,他用这种语法来研究汉外机器翻译问题,首次把“价”(valence)的概念引入我国的机器翻译研究中。他把动词和形容词的行动元(actant)分为主体者、对象者、受益者3个,把状态元(circonstant)分为时刻、时段、时间起点、时间终点、空间点、空间段、空间起点、空间终点、初态、末态、原因、结果、目的、工具、范围、条件、作用、内容、论题、比较、伴随、程度、判断、陈述、附加、修饰等27个,以此来建立多语言的自动句法分析系统,对于一些表示观念、感情的名词,也分别给出了它们的价。他还把从属关系语法和短语结构语法结合起来,在表示结构关系的多叉多标记树形图中,明确地指出中心语的位置,并用核心(GOV)、枢轴(PIVOT)等结点来表示中心词。这是我国学者最早利用从属关系语法和配价语法来进行自然语言计算机处理的尝试,他提出的3个行动元和27个状态元的汉语配价系统,经过了机器翻译实践的检验,证明是行之有效的。这个汉语配价系统为汉语配价研究奠定了初步的理论基础,后来学者们提出的诸多汉语配价系统,与冯志伟在MMT模型中的这个汉语配价系统大同小异。
冯志伟根据机器翻译的实践,提出了表示从属关系语法的从属树(Dependence Tree)应该满足如下五个条件:(一)单纯结点条件:从属树中,只有终极结点,没有非终极结点,从属树中的所有结点所代表的都是句子中实际出现的具体的单词;(二)单一父结点条件:在从属树中,除了根结点没有父结点之外,所有的结点都只有一个父结点;(三)独根结点条件:一个从属树只能有一个根结点,这个根结点,就是从属树中唯一没有父结点的结点,这个根结点支配着其他所有的结点;(四)非交条件:从属树中的树枝不能彼此相交;(五)互斥条件:从属树中的结点之间,从上到下的支配关系和从左到右的前于关系之间是互相排斥的,如果两个结点之间存在着支配关系,它们之间就不能存在前于关系。冯志伟提出的这5个条件比1970年美国计算语言学家罗宾孙(J.Robinson)提出的从属关系语法的4条公理更加直观,更加便于在机器翻译中使用。
冯志伟在法国研究的另一个问题是生成语法的公理化方法。冯志伟从公理化方法的角度来研究乔姆斯基的形式文法,他把乔姆斯基的形式文法同数学中的“半图厄系统”(semi-Thue system)相比较,指出了乔姆斯基的形式文法,不过是数学中的公理系统理论在语言分析中的应用而已,语言就是由文法这一公理系统从初始符号出发推导出的无限句子的集合;文法的规则是有限的,文法中的终极符号和非终极符号的数目也是有限的,可是,由于语言符号具有递归性,文法这一公理系统就能够根据有限的符号,通过有限的重写规则,递归地推导出无限的句子来。冯志伟的研究,从数学的基础理论方面揭示了形式文法的实质。
冯志伟根据他提出的MMT模型,于1981年完成了汉-法/英/日/俄/德多语言机器翻译试验,建立了FAJRA系统。在IBM-4341大型计算机上,把二十多篇汉语文章自动地翻译成英文、法文、日文、俄文、德文。这是世界上第一个汉语到多种外语的机器翻译系统,开创了多语言机器翻译系统之先河。
冯志伟的研究从理论和实践上都改进了短语结构语法,受到了导师沃古瓦教授的赞赏。冯志伟急着想把他的成果应用到中国的科技信息文献的大规模翻译方面,建立一个实用的机器翻译系统,因此,实验报告一写完,他就马上离开法国回到了祖国。
回到北京,冯志伟想到的第一件事情就是到北京大学拜见他的老师——著名语言学家王力先生,向王力先生汇报在法国学习的收获。早年冯志伟在北京大学中文系开始研究数理语言学的时候,王力先生就支持过冯志伟的研究,在北京大学求学期间,冯志伟曾经认真地听过王力先生讲授的《古代汉语》《汉语史》《中国语言学史》《清代古音学》等课程,学习成绩优异,这些课程,为他后来的计算语言学研究奠定了坚实的基础,冯志伟永远忘不了他的恩师王力先生。
1982年春天,冯志伟和他的老同学吴坤定(现为北京出版社编审)一起到北京大学燕南园去看望王力先生。一进门,王力先生就高兴地请他们坐下。王力先生对冯志伟说:“听说你到法国之后已经改行学习自然科学了,现在,你有了很好的数理化基础,因此也就有了科学的头脑,这些都是很宝贵的财富,在语言学研究中随时用得着”。冯志伟向王力教授汇报了他在法国研究多语言机器翻译的收获。王力先生细心地听着,他对冯志伟说:“我前年在武汉开的中国语言学会成立大会上曾经说,我一辈子吃亏就吃亏在不懂数理化。现在你懂得数理化,就不会像我这样吃亏了,我相信你今后一定会做出更好的成绩”。接着,王力先生又说:“20多年前我曾经对你说过,我希望你学习赵元任先生。当然,这是很难的。赵元任先生由哲学家、物理学家、数学家、文学家、音乐家做底子,最后才成为世界著名的语言学家的。我一辈子都想学他,但是,我的数理化基础差,没有学好。你现在到法国学习了自然科学,已经具备学习赵元任先生的条件了,我再一次提醒你,你要向赵元任先生学习,而且一定要学得比我好”。王力先生这些语重心长的话,给了冯志伟极大的鼓励,他决心按照王力先生的教导,把数理化的知识和语言学的知识结合起来,做一个信息时代的新型的语言学家。
从法国回国之后,冯志伟在中国科技信息研究所计算中心担任机器翻译研究组的组长。在王力先生的鼓励下,他利用当时北京遥感技术研究所的IBM-4361计算机,于1985年进行了德-汉机器翻译试验和法-汉机器翻译试验,建立了GCAT德-汉机器翻译系统和FCAT法-汉机器翻译系统,检验了MMT模型分析汉语和生成汉语的能力,试验结果良好。可惜由于资金缺乏,不能开展更大规模的实验,他要建立实用性机器翻译系统的愿望没有马上实现。
1982年秋天,冯志伟应北京大学的邀请,在北京大学中文系汉语专业开设了“语言学中的数学问题”的选修课。这是国内首次在高等学校全面地、系统地讲述数理语言学的课程,受到学生们的欢迎。北京大学前任校长、著名数学家丁石孙教授在他的专著《数学与教育》一书中,对冯志伟的这门课程作了如下的评价:“1982年,北京大学中文系开设了《语言学中的数学问题》,这是给汉语专业学生开的选修课程,许多同学对这门学科产生了很大的兴趣。经过一个学期的学习,同学们初步认识了现代数学的发展给语言学注入了生机,觉得获益匪浅,对语言学这门古老的学科分支的发展充满了信心,而且这一举动冲击了相当多人的旧概念,使闭塞的中国学术界认识到,即使在人文科学教育中,数学也在逐渐起作用。”在北京大学讲稿的基础之上,冯志伟写出了我国第一部数理语言学的专著,书名就叫做《数理语言学》,于1985年8月由上海知识出版社出版。接着,他又出版了《自动翻译》专著,深入地探讨自然语言机器翻译的理论和实践问题。这两本专著的出版,受到了我国计算语言学界的欢迎。不少出国学习计算语言学的留学生,出国时都带着这两本书,作为入门的向导。
四、德国斯图加特:建立世界上第一个中文术语数据库
1985年,原文字改革委员会改名为国家语言文字工作委员会,需要计算语言学方面的人材,冯志伟调入了国家语言文字工作委员会语言文字应用研究所担任计算语言学研究室主任,得以专门从事计算语言学的研究工作。与此同时,理工科方面仍然很需要他,他也在中国科学院软件研究所担任兼职研究员。
根据中德科技合作协定,冯志伟受中国科学院软件研究所的派遣,于1986年至1988年到德国夫琅禾费研究院新信息技术与通讯系统研究所(FhG)担任客座研究员,从事术语数据库的开发。FhG在德国的斯图加特(Stuttgart),是德国著名的工程研究院,在信息科学和术语数据库方面的研究尤其出色。
术语是人类科学技术知识在自然语言中的结晶。术语数据库是在计算机上建立的人类科学技术的知识库,冯志伟的这项研究属于知识工程的研究,具有重要的意义。
当时还没有很好的汉字输入输出软件,冯志伟克服了重重困难,在FhG使用UNIX操作系统和INGRES软件,建立了数据处理领域的中文术语数据库GLOT-C,并且把这个数据库与FhG的其他语言的术语数据库相连接,可以快速地进行多语言术语的查询和检索,并且能够处理汉字。这是世界上第一个中文术语数据库,具有开创作用。
在FhG研究术语数据库的过程中,冯志伟还接触到多种语言的大量术语,他惊异地发现,几乎在每一种语言中,词组型术语的数量都大大地超过了单词型术语的数量。他试图从理论上对这样的语言事实进行解释。
为此,他把数理语言学的理论应用到术语数据库的研究中,提出了“术语形成的经济律”。他证明了:在一个术语系统中,术语系统的经济指数与术语平均长度的乘积恰恰等于单词的术语构成频度之值,并提出了“FEL公式”来描述这个定律。
根据FEL公式可知,在一个术语系统中,提高术语系统经济指数的最好方法是在尽量不过大地改变术语平均长度的前提下,增加单词的术语构成频度。这样,在术语形成的过程中,将会产生大量的词组型术语,使得词组型术语的数量大大地超过单词型术语的数量,而成为术语系统中的大多数。
FEL公式从数理语言学的角度,正确地解释了为什么术语系统中词组型术语的数目总是远远大于单词型术语的数目的数学机理,它反映了语言中的省力原则和经济原则,这是我国学者对于数理语言学中著名的齐夫定律(Zipf's law)的新发展,并从术语的角度说明了语言中的省力原则和经济原则是具有普遍意义的原则。
“术语形成的经济律”提出之后,国内外的术语学界根据术语数据库的事实进行检验,检验证明,在各种术语数据库中,词组型术语的数目确实都大于单词型术语的数目。因此,冯志伟提出的“术语形成的经济律”是适应于各种语言的一条普遍规律,是现代术语学的一条重要的基本定律。
语言是现实的编码体系,术语形成的经济律反映了用词作为语言材料进行单词型术语和词组型术语的编码时的经济律,这一经济律也可适用于语言编码的其他领域。汉语在用单字组成多字词的时候,有限数目的单字组成了为数可观的多字词,多字词以增加自身的长度为代价来保持汉语中原有单字的个数或者尽量不增加原有单字的个数,体现了组字成词这个编码过程的经济律。多字词也就是双音词或多音词,著名语言学家吕叔湘先生指出,“北方话的语音面貌在最近几百年里没有多大变化,可是双音词的增加以近百年为甚,而且大部分是与经济、政治和文化生活有关的所谓‘新名词’。可见同音词在现代主要起消极作用,就是说,要创造新的单音词是极其困难的了。”吕叔湘先生在这里一方面指出了要创造新的单音词(即单字)极其困难,一方面又指出了双音词(即双字词)的大量增加的现象,这正是组字成词的经济律的生动体现。
对汉字结构及其构成成分的统计与分析表明,在《辞海》(1979年版)所收的16295个字和GB2312-80国家标准《信息交换用汉字编码字符集·基本集》收入,而《辞海》未收的43个字中,简化字和被简化的繁体字(包括被淘汰的异体字和计量用字)以及未简化的汉字共有16339个,它们是由675个不能再分解的末级部件构成的,简化字和未简化的汉字(不包括被简化的繁体字、被淘汰的异体字和计量用字)共11837个,它们是由648个不能再分解的末级部件构成的。由少量的部件构成大量的汉字,体现了部件构成汉字这一编码过程的经济律。
所以,冯志伟提出的术语形成经济律实际上乃是“语言编码的经济律”,这是语言学中的一个普遍规律,它支配着语言编码的所有过程。
冯志伟在研究FEL公式的同时还提出了“生词增幅递减律”。他指出,在一个术语系统中,每个单词的绝对频度是不同的,经常使用的单词是高频词,不经常使用的单词是低频词,随着术语条目的增加,高频词的数目也相应地增加,而生词出现的可能性越来越小,这时,尽管术语的条数还继续增加,生词总数增加的速率却越来越慢,而高频词则反复地出现,生词的增幅有递减的趋势。这个“生词增幅递减律”不仅适用于术语系统,也适用于阅读书面文本的过程。人们在阅读一种用自己不熟悉的语言写的文本时,开始总有大量不认识的生词,随着阅读数量的增加,生词增加的幅度会逐渐减少,如果阅读者能够掌握好已经阅读过的生词,阅读将会变得越来越容易。
冯志伟在术语研究中还提出了“潜在歧义论”(Potential Ambiguity Theory,简称PA论),指出了中文术语的歧义格式中,包含着歧义性的一面,也包含着非歧义性的一面,因而这样的歧义格式是潜在的,它只是具有歧义的可能性,而并非现实的歧义。潜在的歧义能否转化成现实的歧义,要通过潜在歧义结构的“实例化”(instantiation)过程来实现,“实例化”之后,有的歧义结构会变成真正的歧义结构,有的歧义结构则不然。这一理论是对传统语言学中“类型-实例”(type-token)观念的冲击,深化了对于歧义格式本质的认识。近年来,冯志伟又把PA论推广到日常语言的领域,促进了自然语言处理中的歧义消解的研究。
术语是记录科学技术知识的基本单元,哪里有知识,哪里就有术语。因此,术语的研究对于人类知识的系统处理,对于科学技术交流都有重要的价值。冯志伟把他研究术语的成果写成《现代术语学引论》一书,于1997年出版,这是我国第一本关于术语学的专著。
五、德国特里尔:在马克思的故乡探索汉字的数学结构
1990年至1993年,冯志伟被德国特里尔大学文学院聘任为客座教授。特里尔是一座有2000年历史的古城,又是马克思的故乡,冯志伟有机会经常到马克思的故居了解这位无产阶级革命导师的光辉业绩。
在特里尔大学文学院任教期间,冯志伟用德语给德国学生讲授“汉魏六朝散文”“唐诗宋词”“中国现代散文”“汉字的发展与结构”“汉语拼音正词法”“汉语词汇史”“机器翻译的理论和方法”等课程。为了讲好课,他苦练德语口语,认真用德语备课,在上每一节课之前,他都要先用德语把讲课的内容自己对自己叙述一遍或多遍,直到能够熟练地背诵为止,他把“备课”当作了“背课”。由于冯志伟备课特别认真,课堂教学效果很好,他的课受到德国学生的一致好评。冯志伟当时的一些学生现在已经成为德国知名的语言学家了。
在教学中他发现,德国学生学习汉语时,学说汉语并不困难,困难的是学汉字。这是因为汉字数量多,结构复杂。因此,他开始研究如何教德国学生学习汉字的问题。
他经过反复的思考,把自己在法国留学时提出的MMT模型运用到汉字结构的教学中,提出了汉字结构的括号式表示法,用这种方法可以把一个汉字按层次分解为若干个部件,构成一个树形结构,再把这样的树形结构用括号表示出来。学生只要掌握了基本的汉字部件,就可以进一步学会由这些部件构成的整个汉字,以简驭繁,使汉字便于理解和记忆。这样的方法受到德国学生的欢迎。
冯志伟把他的研究结果写成了《汉字的历史和现状》一书,用德文在特里尔科学出版社出版。德国特里尔大学韦荷雅(Dorothea Wippermann)博士1996年在《评冯志伟新著〈汉字的历史和现状〉(德文版)》一文中指出,冯志伟“在汉字研究中引入了现代的成分分析法。对于这种方法,直到现在为止,许多在专家圈子之外的普通人还很不熟悉,所知极少。这种分析法认为,汉字是由不同的图形成分组合而成的一个封闭的集合,其中的每一个较大的成分都可以进一步被拆分为较小的成分,一直被拆分到单独的笔画为止。汉字结构的这种多层次的多分叉的构造图形可以用树形图来表示,这样一来,便为揭示汉字总体结构的研究提供了一种系统性的理论和方法。这种在中文信息处理中行之有效的成分分析法,对于汉字的研究和学习,也提供了一种新的记忆手段”。
冯志伟在特里尔大学用德语讲授了一系列的汉语语言学课程,并且用德语出版了语言学的专著,显示了他的外语才能。在我国中文系出身的语言学家当中,像冯志伟这样通晓多门外语的人还不多。他不仅是一位善于深思的语言学理论家,而且还是一位勇于实践的能操多种外国语的多面手。
在德国讲学的那段时间里,有一次他到一位德国教授的家里做客,闲谈中谈到了德国著名诗人海涅 (Heinrich Heine)。冯志伟年轻时曾经读过海涅的诗歌和散文,当这位德国教授谈到海涅的《哈尔茨山游记》(Harzreise)时,冯志伟情不自禁地用德语朗诵起来:“Die Stadt Göttingen, berühmt durch ihre Würste und Universität, gehört dem Könige von Hannover”(哥廷根属于汉诺威公国,以它的香肠和大学而闻名于世)。这位德国教授感到非常惊讶,他万万没有想到一个中国人竟然能够如数家珍地背诵海涅的散文,怀疑地问冯志伟:“你背诵的可能不准确吧?”冯志伟很有信心地回答:“我认为是准确的,这是《哈尔茨山游记》的第一句话。”这位德国教授从书架上找到了海涅的《哈尔茨山游记》来核对,冯志伟的背诵确实一字不差,果然是《哈尔茨山游记》的第一句话。
冯志伟年轻时学习外语是非常刻苦的。为了学习英语,他就买来一本中型的英汉词典,一页一页地记忆和背诵,背完一页就撕去一页。几年来,冯志伟先后撕完了英汉、俄汉、法汉、德汉、日汉等多部词典,他就用这样的笨方法,学会了多门外语。学习外语几乎成了他的一种爱好。当然,掌握了多门外语,使他对语言现象的观察有了若干个参照系,他有可能参照多种语言来研究某一种语言的特殊问题。这大概也是冯志伟能够在语言研究中取得成功的一个原因吧!
六、韩国大田:用英语讲授自然语言处理技术
2001年,他应邀到韩国科学技术院(Korean Advanced Institute of Science and Technology,简称KAIST)电子工程与计算机科学系担任教授。KAIST是韩国著名的理工科大学,学生都是通过严格的考试和数学物理竞赛选出来的精英。他用英语给该系博士研究生开了“自然语言处理-II”(Natural Language Processing-II,简称NLP-II)这样一门课。在备课中,他发现美国Colorado大学的Daniel Jurafsky和James Martin的新著Speech and Language Processing——An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition(《语音和语言处理–自然语言处理,计算语言学和语音识别导论》)是一本很优秀的自然语言处理的教材,这本教材覆盖面非常广泛,理论分析十分深入,而且强调实用性和注重评测技术,几乎所有的例子都来自真实的语料库。他常常想,如果能够把这本优秀的教材翻译成中文,让国内的年轻学子们也能学习本书,那该是多么好的事情!
2002年,在他回国参加的一次学术讨论会上,电子工业出版社的编辑找到冯志伟,说他们打算翻译出版此书。这位编辑说,电子工业出版社已经进行过调查,目前国外绝大多数大学的计算机科学系都采用此书作为“自然语言处理”课程的研究生教材,他们希望冯志伟亲自来翻译这本书,与电子工业出版社配合,推出高质量的中文译本。电子工业出版社的意见与冯志伟原来的想法不谋而合,于是,他欣然接受了这本长达600多页的英文专著的翻译任务,于2003年开始进行翻译。
冯志伟虽然已经通读过这本书两遍,对于这本书应该说是有一定的理解了,但是,亲自动手翻译起来,却不像原来想象的那样容易,要把英文的意思表达为确切的中文,下起笔来,总有绠短汲深之感,大量的新术语如何用中文来表达,也是颇费周折和令人踌躇的难题。在韩国教授期间,冯志伟利用全部的业余时间进行翻译,晚上加班到深夜,连续工作了11个月,当翻译了14章(全书的三分之二)的时候,他不幸患了黄斑前膜的眼病,视力出现障碍,难于继续翻译工作,还剩下7章(全书的三分之一)没有翻译,“行百里者半九十”,这7章的翻译工作究竟如何来完成呢?正当冯志伟束手无策、一筹莫展的时候,中国科学院软件研究所的一位年轻的副研究员表示愿意继续他的工作,协助冯志伟完成本书的翻译。这位副研究员把剩下的7章逐一翻译成中文,通过计算机网络一章一章地传给在韩国的冯志伟,冯志伟使用语音合成装置,让计算机把书面的文本读出来,冯志伟通过读出来的语音进行译文的校正。语音合成技术使冯志伟克服了视力不济的困扰,帮助他迈过了重重难关。2004年,在两人的通力合作下,全书的翻译总算大功告成了,由电子工业出版社以《自然语言处理综论》的书名出版。
这本书的出版受到广大读者的欢迎,而冯志伟为此却损害了自己的视力,以后,他不得不借助于语音合成装置来阅读了。
七、荣获维斯特奖
2006年6月30日,联合国教科文组织奥地利委员会(Austrian Commission for UNESCO)、维也纳市(City of Vienna)和国际术语信息中心(INFOTERM)给冯志伟教授颁发了维斯特奖(Wüster Special Prize),以表彰他在术语学理论和术语学方法研究方面做出的突出贡献。维斯特(Eugen Wüster,1898-1977)是奥地利著名科学家,是术语学和术语标准化工作的奠基人。维斯特奖是专门为那些对于术语学和术语标准化工作有出色成就的科学家而设置的。
冯志伟获得维斯特奖,说明他数十年的努力终于得到了国际的承认。可惜的是,冯志伟的视力越来越差,当他接受维斯特奖的时候,已经不能看清奖章上面的图案了,他为我国计算语言学和术语学而付出的代价确实太大了。
冯志伟今年满七十岁,著述颇丰,多有建树,其内容涉及不少领域,引起国内外不少同行专家的广泛关注和高度评价。他现在已在多家著名出版社出版了二十余部专著,翻译国外重要论著数十篇(部),并用汉、英、法、德文等撰写了有代表性的重要学术论文百余篇,在国内外许多著名刊物上发表。其著述不胜一一列举。其代表作如:专著《数理语言学》《自动翻译》《现代语言学流派》《现代汉字和计算机》《中文信息处理与汉语研究》《数学与语言》《自然语言机器翻译新论》《应用语言学综论》《应用语言学新论》《计算语言学基础》《计算语言学探索》《机器翻译研究》《现代术语学引论》《自然语言的计算机处理》《汉语教学与汉语拼音正词法》《汉字的历史与现状》(德文版),译著《自然语言处理综论》等等。他还主持和参与了若干个国家标准的制定,为我国标准化做出了贡献。他又是《中国大百科全书》《计算机百科全书》《数学辞海》《中国少年百科全书》等大型工具书的撰稿人,为这些权威性工具书写了不少重要条目。他还为一些当代语言学名著的外文版写导读,如《应用语言学中的语料库》《语言学中的数学方法》《译者的电子工具》《人工智能在第二语言教学中的应用》,帮助国内读者阅读外文原著。
冯志伟在中国传媒大学招收计算语言学专业方向的博士生,不少毕业的博士生在学术上取得了突出的成绩,他们已经成为我国计算语言学的骨干力量。
冯志伟经过数十年的艰苦努力,终于实现了他使用数学方法研究语言的愿望,并把语言学和计算机科学非常自然地结合起来,取得了多方面辉煌的成就,为语言学、计算机等学科做出了重要贡献。他的这些光彩、亮丽、丰硕的成果琳琅满目,异彩纷呈,多么令人欣慰、激动呀!
过去的著名语言学家有的只懂社会科学,不懂自然科学;有的只懂古代汉语、现代汉语或普通语言学,一般只着重研究汉语的语音、词汇、语法或文字等某一个方面的问题,研究的问题和领域比较单一,即使一些佼佼者,至多也只懂得两三门外语,视野不够开阔,语言的纵横向对比研究都不够,有一定的局限性。而冯志伟先生却懂得理科中的数学、物理、化学和计算机科学,又懂得语言学中的古代汉语、现代汉语、普通语言学和文字学。深研过汉、英、法、德、俄、日等语言的语音、词汇和语法,并把各方面的知识紧密地结合起来综合应用,在计算机上加以实现,成为文理兼通的语言学专家。冯志伟教授不但能在计算机科学系讲授理科的机器翻译的方法和技术研究、自然语言处理的算法研究、计算语言学专题研究等艰深的博士课程,而且也能够在中文系讲授汉魏六朝散文、唐诗、宋词、古代汉语、现代汉语、汉字的历史与结构等饶有风趣的课程。他还能给学生们辅导英、德、法、俄、日等外国语课程。他的散文和诗歌也写得很好,他还是一位翻译专家,出版过翻译著作。这样的人才是很罕见的。
然而,冯志伟对于他的这些成就却看得很平淡,他很少对别人谈起他的成就。除了平时喜欢喝白开水和游泳之外,他几乎没有什么特殊的嗜好,他每日粗茶淡饭,过着非常简朴的生活。他从来不以为自己是什么“专家”,没有任何架子,总是谦和地对待他的学生和周围的同志。在北京大学中文系59级同学纪念册上,他写下了这样的人生感言:“先天不足,后天失调;岁月蹉跎,艰辛备尝;老当益壮,穷且越坚;平生无悔,褒贬由之。”他始终认为自己是一个很平常的普通人,对于别人的褒贬,他是看得很平淡的。他对生活的信条是:“在科学探索的过程中,我所知道的东西终究是有限的,而我不知道的东西始终是无限的,只要平生无悔就很好了!”
今年是2009年,从1957年冯志伟下决心来研究数学方法在语言学中的应用这个问题算起,他为我国计算语言学的开创和发展呕心沥血地奋斗了整整五十二年的时间。由于长期超负荷工作而积劳成疾,付出了他自己的健康,损害了他的视力,想到他这些不幸,我们就感到一阵阵辛酸。每当我们回顾冯志伟在五十二年的科学研究中走过人生历程时,总有一种悲壮的感觉。
冯志伟先生,我们希望您珍惜自己的身体健康,保护您的视力,继续为文科和理科的沟通,为我国科学技术事业的发展,做出更大的贡献。
(张在云 昆明 云南大学成人教育学院650091)