论文部分内容阅读
摘 要:语料库语言学的方法在词典编纂中的应用已有三十年的历史了,但汉语研究中对其应用仍显不足。《现代汉语常用实词搭配词典》的编纂,是对语料库语言学方法应用的一种尝试。由于这部词典是以第二语言学习者为对象的,所以选词范围限制在《汉语水平词汇与汉字等级大纲》的8822词中的实词,释义尽量简明、有代表性。采用的是基于语料库数据的方法,即从语料库出检索出某一实词的所有搭配结构,并且在人工干预下描绘出它的搭配词的语义类别,并举出其有代表性的搭配结构和范围。
关键词:语料库 搭配 关键词 搭配词
一
《现代汉语常用实词搭配词典》①是一部专门为第二语言学习者学习汉语编纂的实用型词典。由于第二语言学习者缺乏汉语语感,再加上不同的词语有不同的搭配词,搭配中有词性、词义、词形和语用等制约因素,所以有时学生即使明白了词义,在使用中也常常会出现搭配不当的现象。对外汉语教学工作的实践证明,相当多的语句偏误出现在搭配上,这种搭配不仅表现为语法搭配,更表现为语义搭配。现有的几部搭配词典,虽然介绍了语法搭配,列举了搭配词条,但对于搭配词的语义类别没有概括,举例代表性不够,所以留学生在学习中没有很好的参考工具,因此,编写一部适用于以汉语为第二语言的学习者的搭配词典,就显得尤为重要。在这部词典中,不仅指出了某个词常常和哪类词搭配,而且概括出搭配词的语义类,然后再列举其有代表性的结构。同时对有些词还概括出语音搭配,即两个搭配词的音节和谐问题。另外,在语用方面也有所兼顾,如有的词书面语色彩突出,在词典中都有说明。
因为词典的使用群体是留学生,所以收词范围、释义等都以《汉语水平词汇与汉字等级大纲》8822个词为参照。具体特点如下:
(一)收词和释义:词典以汉语水平考试大纲中的8000多个词为基础,剔除虚词、单纯的构词成分以及个别搭配特点不明显的实词。释义可参考各类工具书和各种对外汉语教材,尽量适合以汉语为第二语言学习者学习阶段的水平,力求浅显简约,使用最常用最基本的少量核心词,具体标准就是将释义用词的范围控制在汉语水平考试大纲中的3000余个甲、乙级词语范围之内。
(二)搭配结构的选择:考虑到外国人学习汉语的需要,本词典不反映词目的全部语法功能,所收词目不列举其全部搭配结构,只选收外国人学习汉语时容易出现问题的搭配结构和代表性的结构,并概括出搭配词的语义类。
(三)搭配结构的排列:词典分义项列举词目的搭配情况首先根据词语的搭配能力,分别列举词目与不同类词语的自由搭配情况。自由组合尽量指明搭配范围(即概括出搭配词的义类),并举例列举(列举搭配词语有代表性),有一定限制性的组合尽量列举全部搭配词语。例句基本不出现。
(四)不能搭配的结构:搭配项列举完后,可根据留学生使用词语的情况,注明词目不与哪类词语搭配以及其他需要注意的事项,以▲标出。②
二
在词典编纂过程中,拟采用语料库数据支持的方法,主要有基于语料库数据的方法(data-based approach)和语料库数据驱动的(data-driven approach)方法。这两种方法从语料库语言学的兴起开始,已经有30年的历史了,其中卓有成效的研究有(Jones & Sinclair,1974;Sinclair 1987、1991、1996;Kjellmer,1984、1987、1991;Kennedy,1990)。之所以采用语料库语言学的方法,是因为词语搭配中呈现出共现性、相对稳定性和不可解释性,这些特征有的可以从语法、语义的角度加以解释,但有些是人们长期习用的结果,表现出一些统计学特征,统计学特征就需要语料库证据的支持,才能更全面。因此,有了合适规模的语料库,就可以全面、准确、快速地完成编纂任务,再也不用像《English Collocation Dictionary》那样历时二十年才编纂成书了。
语料库的建设,这是编纂搭配词典的基础平台。目前语料库建设已经完成,建库时既利用了现有的语料库成果,又增加了一些适用于留学生的语料,其中既有各类学校编写的对外汉语教材,又有现当代汉语语料。题材、各类语料的比例力求科学合理。有了语料库以后,具体方法的运用主要采用基于语料库数据的方法。
类联接是词语搭配研究中的一个重要概念,是“语法范畴在句法结构上的相互关系”(Tognini Binelli 2001:5)。它不是指具体词与词的搭配,而是词的语法类别之间的搭配,如V+N、ADV+AD、N+N等都是类联接。在此搭配词典中,是以词项为中心,将要研究其搭配结构的词项称为关键词,参照类联接框架,观察、概括和描述词项的搭配。
索引(concordance),是语料库中含有所研究的关键词的句子。采用索引软件即可进行索引。将要研究的关键词输入计算机,计算机就会按照编好的程序列举出索引。目前,国外的Brown、COB等语料库都可以利用索引软件直接查询。国内有北京大学汉语语言学研究中心的现代汉语、古代汉语、汉英双语语料库。
三
语料库建设完成以后,可用索引软件从语料库中寻找含有某一关键词的所有索引,从索引中寻找搭配结构。关键词有词性的区别,可按照词性将索引进行粗分类,将同一词性的视为一类,然后按类归纳。同一词性的词有单义与多义之分,对于多义词可以按照义项再分类,同一个义项的归为一类,并对索引进行归类,单义词不存在再分类的问题。按词性、义项分类完毕以后,检查关键词与它的左右搭配词,看其左右搭配词中实词结合的紧密程度,虚词剔除。如和左搭配词更能构成一个完整的结构,就提取关键词和左搭配词,如和右搭配词更能构成一个完整的结构,就提取关键词和右搭配词。有时根据意义同时提取左右搭配词,视情况而定,但要以表达一个完整的意义为准。
搭配词也存在词性问题,根据词性,就可提取出类联接。再归纳同一类联接的搭配词的义类,从而列举出某一关键词的搭配范围。归纳义类不是随意而为的,参照了《同义词词林》的义类划分标准,并在确保意义准确的情况下尽量用浅显的语言概括出来,在搭配范围后列举典型例证,兼顾到所有的搭配范围。这就是基于数据的方法,用这种方法,研究者凭借丰富的资源,可对关键词的搭配情况和搭配特点进行较为扎实的概括,如果语料库容量比较大,且有一定的代表性,那么研究结果就有较高的效度。
由于这部词典收词选取的是有代表性的搭配结构,而不是所有的自由组合都不加取舍地收进来。所以,在索引中就有一个进一步取舍的问题。对于在语料中偶然出现的搭配,不是仅靠直觉,而是计算出关键词和搭配词的共现频率。在用检索软件检索关键词后,将所有的搭配词按降频排列,非常低的共现频率不予考虑,这样就可避免偶然搭配,很好地体现编写体例中的代表性特征。
我们从北大CCL现代汉语语料库中查到的“选拔”一词的索引有3804条,下面是部分索引:
(1)国统考是我国选拔硕士生的主要方式,它分为初试和复试。
(2)在98MBA联考的考生中选拔,而不再组织统考或单考。
(3)主要的原因是美国大多数商科院校不懂得如何选拔那些清楚如何在中国做生意的大陆中国人做留学生。
(4)要论上阵打仗的本领,你不如我;至于选拔人才,任用贤人,我比不上你。
(5)朝廷设置官员,为的是治理国家,应该选拔贤才,怎么能拿关系来作选人的标准呢?
(6)有一年,长安举行考试,选拔能够直言敢谏的人才。
(7)考官看了卷子,认为这两个人符合选拔的条件,就把他们推荐给唐宪宗。
(8)样样精通,加上胆壮力大,后来被选拔做了小军官。
(9)他认为这正是他选拔人才、改革文风的好机会。
(10)国际水平的定期杂志,而且还承担了选拔诺贝尔物理、化学、经济三个领域的获奖者的任务。
(11)就是通过全国竞赛和不列颠数学奥林匹克选拔的。
(12)实际上也是从中选拔人才,任用做官。
(13)一些政治开明的统治者从被统治者的最下层选拔出个别突出的人才,破格委以重任。
(14)希望通过新制度不拘一格选拔人才,壮大封建地主阶级的力量。
(15)孔子认为选拔人才的标准是“志于道、据于德、依于仁、游于艺”。
(16)这时,过去通过军功、养士选拔人才的办法已经不能适应现实的封建中央集权制度
(17)曾下诏强调要以“四科”辟士,这是指选拔人才应该掌握的四方面标准。
(18)评价教育质量、选拔专业人材、诊断病人,鉴别超常、低常儿童……
(19)通过国家考试结合平时的考核成绩选拔优秀的学生进校学习。
通过分析可知,“选拔”的对象一般为从事某种职业的人或某类人才,这类有3733条记录,极少和表示作品的词搭配,在我们的统计中只发现71条记录。高频搭配词见表1。
另外,在词语搭配研究中还有语料库数据驱动的方法,这种方法没有先入为主的观念,完全由统计数据驱动。这种方法有一套完整的概念:节点词(node)、跨距(span)和搭配词(collocate)等。节点词即关键词,跨距是节点词在其左右的作为其语境的词的数目,一般为-5/+5或-4/+4,即在节点词左右各取5个或4个词为其语境。将跨距内所有的搭配词与节点词的共现情况进行计算,根据公式,计算出T值(判断词项间预见和吸引程度的尺度)或MI值(判断词语间搭配强度),目的是计算搭配词与节点词的共现频率,寻求典型搭配。这种方法适用于大型语料库研究,也有利于发现新的语言现象。
四
《现代汉语常用实词搭配词典》的服务对象决定了语料的选择、搭配结构和搭配范围的确定,这只是语料库语言学的方法在词典编纂中的一个尝试,在语料库详实全面的材料、完善的检索统计功能和合理的人工干预下,相信这部词典定会准确、全面、科学而又实用。
附注:
①《现代汉语常用实词搭配词典》是河北师范大学杨同用教
授正在研制的一部词典。
②参照杨同用《关于编纂<现代汉语常用实词搭配词典>的设
想》,未公开发表。
参考文献:
[1]卫乃兴.搭配研究50年:概念的演变与方法的发展[J].解放军外国语学院学报,2003,(3).
[2]卫乃兴.基于语料库和语料库驱动的词语搭配研究[J].当代语言学,2002,(2).
[3]邓耀臣.词语搭配研究中的统计方法[J].大连海事大学学报,2003,(12).
[4]林杏光.论词语搭配及其研究[J].语言教学与研究,1994,(4).
[5]王建新.语料库语言学发展史上的几个重要阶段.外语教学与研究,1998,(4).
[6]黄昌宁,李涓子.语料库语言学[M].北京:商务印书馆,2002.
[7]John Sinclair.Corpus Concordance Collocation[m].上海:上海外语教育出版社,1999.
(刘凤芹,青岛大学汉语言学院)
关键词:语料库 搭配 关键词 搭配词
一
《现代汉语常用实词搭配词典》①是一部专门为第二语言学习者学习汉语编纂的实用型词典。由于第二语言学习者缺乏汉语语感,再加上不同的词语有不同的搭配词,搭配中有词性、词义、词形和语用等制约因素,所以有时学生即使明白了词义,在使用中也常常会出现搭配不当的现象。对外汉语教学工作的实践证明,相当多的语句偏误出现在搭配上,这种搭配不仅表现为语法搭配,更表现为语义搭配。现有的几部搭配词典,虽然介绍了语法搭配,列举了搭配词条,但对于搭配词的语义类别没有概括,举例代表性不够,所以留学生在学习中没有很好的参考工具,因此,编写一部适用于以汉语为第二语言的学习者的搭配词典,就显得尤为重要。在这部词典中,不仅指出了某个词常常和哪类词搭配,而且概括出搭配词的语义类,然后再列举其有代表性的结构。同时对有些词还概括出语音搭配,即两个搭配词的音节和谐问题。另外,在语用方面也有所兼顾,如有的词书面语色彩突出,在词典中都有说明。
因为词典的使用群体是留学生,所以收词范围、释义等都以《汉语水平词汇与汉字等级大纲》8822个词为参照。具体特点如下:
(一)收词和释义:词典以汉语水平考试大纲中的8000多个词为基础,剔除虚词、单纯的构词成分以及个别搭配特点不明显的实词。释义可参考各类工具书和各种对外汉语教材,尽量适合以汉语为第二语言学习者学习阶段的水平,力求浅显简约,使用最常用最基本的少量核心词,具体标准就是将释义用词的范围控制在汉语水平考试大纲中的3000余个甲、乙级词语范围之内。
(二)搭配结构的选择:考虑到外国人学习汉语的需要,本词典不反映词目的全部语法功能,所收词目不列举其全部搭配结构,只选收外国人学习汉语时容易出现问题的搭配结构和代表性的结构,并概括出搭配词的语义类。
(三)搭配结构的排列:词典分义项列举词目的搭配情况首先根据词语的搭配能力,分别列举词目与不同类词语的自由搭配情况。自由组合尽量指明搭配范围(即概括出搭配词的义类),并举例列举(列举搭配词语有代表性),有一定限制性的组合尽量列举全部搭配词语。例句基本不出现。
(四)不能搭配的结构:搭配项列举完后,可根据留学生使用词语的情况,注明词目不与哪类词语搭配以及其他需要注意的事项,以▲标出。②
二
在词典编纂过程中,拟采用语料库数据支持的方法,主要有基于语料库数据的方法(data-based approach)和语料库数据驱动的(data-driven approach)方法。这两种方法从语料库语言学的兴起开始,已经有30年的历史了,其中卓有成效的研究有(Jones & Sinclair,1974;Sinclair 1987、1991、1996;Kjellmer,1984、1987、1991;Kennedy,1990)。之所以采用语料库语言学的方法,是因为词语搭配中呈现出共现性、相对稳定性和不可解释性,这些特征有的可以从语法、语义的角度加以解释,但有些是人们长期习用的结果,表现出一些统计学特征,统计学特征就需要语料库证据的支持,才能更全面。因此,有了合适规模的语料库,就可以全面、准确、快速地完成编纂任务,再也不用像《English Collocation Dictionary》那样历时二十年才编纂成书了。
语料库的建设,这是编纂搭配词典的基础平台。目前语料库建设已经完成,建库时既利用了现有的语料库成果,又增加了一些适用于留学生的语料,其中既有各类学校编写的对外汉语教材,又有现当代汉语语料。题材、各类语料的比例力求科学合理。有了语料库以后,具体方法的运用主要采用基于语料库数据的方法。
类联接是词语搭配研究中的一个重要概念,是“语法范畴在句法结构上的相互关系”(Tognini Binelli 2001:5)。它不是指具体词与词的搭配,而是词的语法类别之间的搭配,如V+N、ADV+AD、N+N等都是类联接。在此搭配词典中,是以词项为中心,将要研究其搭配结构的词项称为关键词,参照类联接框架,观察、概括和描述词项的搭配。
索引(concordance),是语料库中含有所研究的关键词的句子。采用索引软件即可进行索引。将要研究的关键词输入计算机,计算机就会按照编好的程序列举出索引。目前,国外的Brown、COB等语料库都可以利用索引软件直接查询。国内有北京大学汉语语言学研究中心的现代汉语、古代汉语、汉英双语语料库。
三
语料库建设完成以后,可用索引软件从语料库中寻找含有某一关键词的所有索引,从索引中寻找搭配结构。关键词有词性的区别,可按照词性将索引进行粗分类,将同一词性的视为一类,然后按类归纳。同一词性的词有单义与多义之分,对于多义词可以按照义项再分类,同一个义项的归为一类,并对索引进行归类,单义词不存在再分类的问题。按词性、义项分类完毕以后,检查关键词与它的左右搭配词,看其左右搭配词中实词结合的紧密程度,虚词剔除。如和左搭配词更能构成一个完整的结构,就提取关键词和左搭配词,如和右搭配词更能构成一个完整的结构,就提取关键词和右搭配词。有时根据意义同时提取左右搭配词,视情况而定,但要以表达一个完整的意义为准。
搭配词也存在词性问题,根据词性,就可提取出类联接。再归纳同一类联接的搭配词的义类,从而列举出某一关键词的搭配范围。归纳义类不是随意而为的,参照了《同义词词林》的义类划分标准,并在确保意义准确的情况下尽量用浅显的语言概括出来,在搭配范围后列举典型例证,兼顾到所有的搭配范围。这就是基于数据的方法,用这种方法,研究者凭借丰富的资源,可对关键词的搭配情况和搭配特点进行较为扎实的概括,如果语料库容量比较大,且有一定的代表性,那么研究结果就有较高的效度。
由于这部词典收词选取的是有代表性的搭配结构,而不是所有的自由组合都不加取舍地收进来。所以,在索引中就有一个进一步取舍的问题。对于在语料中偶然出现的搭配,不是仅靠直觉,而是计算出关键词和搭配词的共现频率。在用检索软件检索关键词后,将所有的搭配词按降频排列,非常低的共现频率不予考虑,这样就可避免偶然搭配,很好地体现编写体例中的代表性特征。
我们从北大CCL现代汉语语料库中查到的“选拔”一词的索引有3804条,下面是部分索引:
(1)国统考是我国选拔硕士生的主要方式,它分为初试和复试。
(2)在98MBA联考的考生中选拔,而不再组织统考或单考。
(3)主要的原因是美国大多数商科院校不懂得如何选拔那些清楚如何在中国做生意的大陆中国人做留学生。
(4)要论上阵打仗的本领,你不如我;至于选拔人才,任用贤人,我比不上你。
(5)朝廷设置官员,为的是治理国家,应该选拔贤才,怎么能拿关系来作选人的标准呢?
(6)有一年,长安举行考试,选拔能够直言敢谏的人才。
(7)考官看了卷子,认为这两个人符合选拔的条件,就把他们推荐给唐宪宗。
(8)样样精通,加上胆壮力大,后来被选拔做了小军官。
(9)他认为这正是他选拔人才、改革文风的好机会。
(10)国际水平的定期杂志,而且还承担了选拔诺贝尔物理、化学、经济三个领域的获奖者的任务。
(11)就是通过全国竞赛和不列颠数学奥林匹克选拔的。
(12)实际上也是从中选拔人才,任用做官。
(13)一些政治开明的统治者从被统治者的最下层选拔出个别突出的人才,破格委以重任。
(14)希望通过新制度不拘一格选拔人才,壮大封建地主阶级的力量。
(15)孔子认为选拔人才的标准是“志于道、据于德、依于仁、游于艺”。
(16)这时,过去通过军功、养士选拔人才的办法已经不能适应现实的封建中央集权制度
(17)曾下诏强调要以“四科”辟士,这是指选拔人才应该掌握的四方面标准。
(18)评价教育质量、选拔专业人材、诊断病人,鉴别超常、低常儿童……
(19)通过国家考试结合平时的考核成绩选拔优秀的学生进校学习。
通过分析可知,“选拔”的对象一般为从事某种职业的人或某类人才,这类有3733条记录,极少和表示作品的词搭配,在我们的统计中只发现71条记录。高频搭配词见表1。
另外,在词语搭配研究中还有语料库数据驱动的方法,这种方法没有先入为主的观念,完全由统计数据驱动。这种方法有一套完整的概念:节点词(node)、跨距(span)和搭配词(collocate)等。节点词即关键词,跨距是节点词在其左右的作为其语境的词的数目,一般为-5/+5或-4/+4,即在节点词左右各取5个或4个词为其语境。将跨距内所有的搭配词与节点词的共现情况进行计算,根据公式,计算出T值(判断词项间预见和吸引程度的尺度)或MI值(判断词语间搭配强度),目的是计算搭配词与节点词的共现频率,寻求典型搭配。这种方法适用于大型语料库研究,也有利于发现新的语言现象。
四
《现代汉语常用实词搭配词典》的服务对象决定了语料的选择、搭配结构和搭配范围的确定,这只是语料库语言学的方法在词典编纂中的一个尝试,在语料库详实全面的材料、完善的检索统计功能和合理的人工干预下,相信这部词典定会准确、全面、科学而又实用。
附注:
①《现代汉语常用实词搭配词典》是河北师范大学杨同用教
授正在研制的一部词典。
②参照杨同用《关于编纂<现代汉语常用实词搭配词典>的设
想》,未公开发表。
参考文献:
[1]卫乃兴.搭配研究50年:概念的演变与方法的发展[J].解放军外国语学院学报,2003,(3).
[2]卫乃兴.基于语料库和语料库驱动的词语搭配研究[J].当代语言学,2002,(2).
[3]邓耀臣.词语搭配研究中的统计方法[J].大连海事大学学报,2003,(12).
[4]林杏光.论词语搭配及其研究[J].语言教学与研究,1994,(4).
[5]王建新.语料库语言学发展史上的几个重要阶段.外语教学与研究,1998,(4).
[6]黄昌宁,李涓子.语料库语言学[M].北京:商务印书馆,2002.
[7]John Sinclair.Corpus Concordance Collocation[m].上海:上海外语教育出版社,1999.
(刘凤芹,青岛大学汉语言学院)