语料库语言学的方法在《现代汉语常用实词搭配词典》中的应用

来源 :现代语文(语言研究) | 被引量 : 0次 | 上传用户:tjn000800
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:语料库语言学的方法在词典编纂中的应用已有三十年的历史了,但汉语研究中对其应用仍显不足。《现代汉语常用实词搭配词典》的编纂,是对语料库语言学方法应用的一种尝试。由于这部词典是以第二语言学习者为对象的,所以选词范围限制在《汉语水平词汇与汉字等级大纲》的8822词中的实词,释义尽量简明、有代表性。采用的是基于语料库数据的方法,即从语料库出检索出某一实词的所有搭配结构,并且在人工干预下描绘出它的搭配词的语义类别,并举出其有代表性的搭配结构和范围。
  关键词:语料库 搭配 关键词 搭配词
  
  一
  
  《现代汉语常用实词搭配词典》①是一部专门为第二语言学习者学习汉语编纂的实用型词典。由于第二语言学习者缺乏汉语语感,再加上不同的词语有不同的搭配词,搭配中有词性、词义、词形和语用等制约因素,所以有时学生即使明白了词义,在使用中也常常会出现搭配不当的现象。对外汉语教学工作的实践证明,相当多的语句偏误出现在搭配上,这种搭配不仅表现为语法搭配,更表现为语义搭配。现有的几部搭配词典,虽然介绍了语法搭配,列举了搭配词条,但对于搭配词的语义类别没有概括,举例代表性不够,所以留学生在学习中没有很好的参考工具,因此,编写一部适用于以汉语为第二语言的学习者的搭配词典,就显得尤为重要。在这部词典中,不仅指出了某个词常常和哪类词搭配,而且概括出搭配词的语义类,然后再列举其有代表性的结构。同时对有些词还概括出语音搭配,即两个搭配词的音节和谐问题。另外,在语用方面也有所兼顾,如有的词书面语色彩突出,在词典中都有说明。
  因为词典的使用群体是留学生,所以收词范围、释义等都以《汉语水平词汇与汉字等级大纲》8822个词为参照。具体特点如下:
  (一)收词和释义:词典以汉语水平考试大纲中的8000多个词为基础,剔除虚词、单纯的构词成分以及个别搭配特点不明显的实词。释义可参考各类工具书和各种对外汉语教材,尽量适合以汉语为第二语言学习者学习阶段的水平,力求浅显简约,使用最常用最基本的少量核心词,具体标准就是将释义用词的范围控制在汉语水平考试大纲中的3000余个甲、乙级词语范围之内。
  (二)搭配结构的选择:考虑到外国人学习汉语的需要,本词典不反映词目的全部语法功能,所收词目不列举其全部搭配结构,只选收外国人学习汉语时容易出现问题的搭配结构和代表性的结构,并概括出搭配词的语义类。
  (三)搭配结构的排列:词典分义项列举词目的搭配情况首先根据词语的搭配能力,分别列举词目与不同类词语的自由搭配情况。自由组合尽量指明搭配范围(即概括出搭配词的义类),并举例列举(列举搭配词语有代表性),有一定限制性的组合尽量列举全部搭配词语。例句基本不出现。
  (四)不能搭配的结构:搭配项列举完后,可根据留学生使用词语的情况,注明词目不与哪类词语搭配以及其他需要注意的事项,以▲标出。②
  
  二
  
  在词典编纂过程中,拟采用语料库数据支持的方法,主要有基于语料库数据的方法(data-based approach)和语料库数据驱动的(data-driven approach)方法。这两种方法从语料库语言学的兴起开始,已经有30年的历史了,其中卓有成效的研究有(Jones & Sinclair,1974;Sinclair 1987、1991、1996;Kjellmer,1984、1987、1991;Kennedy,1990)。之所以采用语料库语言学的方法,是因为词语搭配中呈现出共现性、相对稳定性和不可解释性,这些特征有的可以从语法、语义的角度加以解释,但有些是人们长期习用的结果,表现出一些统计学特征,统计学特征就需要语料库证据的支持,才能更全面。因此,有了合适规模的语料库,就可以全面、准确、快速地完成编纂任务,再也不用像《English Collocation Dictionary》那样历时二十年才编纂成书了。
  语料库的建设,这是编纂搭配词典的基础平台。目前语料库建设已经完成,建库时既利用了现有的语料库成果,又增加了一些适用于留学生的语料,其中既有各类学校编写的对外汉语教材,又有现当代汉语语料。题材、各类语料的比例力求科学合理。有了语料库以后,具体方法的运用主要采用基于语料库数据的方法。
  类联接是词语搭配研究中的一个重要概念,是“语法范畴在句法结构上的相互关系”(Tognini Binelli 2001:5)。它不是指具体词与词的搭配,而是词的语法类别之间的搭配,如V+N、ADV+AD、N+N等都是类联接。在此搭配词典中,是以词项为中心,将要研究其搭配结构的词项称为关键词,参照类联接框架,观察、概括和描述词项的搭配。
  索引(concordance),是语料库中含有所研究的关键词的句子。采用索引软件即可进行索引。将要研究的关键词输入计算机,计算机就会按照编好的程序列举出索引。目前,国外的Brown、COB等语料库都可以利用索引软件直接查询。国内有北京大学汉语语言学研究中心的现代汉语、古代汉语、汉英双语语料库。
  
  三
  
  语料库建设完成以后,可用索引软件从语料库中寻找含有某一关键词的所有索引,从索引中寻找搭配结构。关键词有词性的区别,可按照词性将索引进行粗分类,将同一词性的视为一类,然后按类归纳。同一词性的词有单义与多义之分,对于多义词可以按照义项再分类,同一个义项的归为一类,并对索引进行归类,单义词不存在再分类的问题。按词性、义项分类完毕以后,检查关键词与它的左右搭配词,看其左右搭配词中实词结合的紧密程度,虚词剔除。如和左搭配词更能构成一个完整的结构,就提取关键词和左搭配词,如和右搭配词更能构成一个完整的结构,就提取关键词和右搭配词。有时根据意义同时提取左右搭配词,视情况而定,但要以表达一个完整的意义为准。
  搭配词也存在词性问题,根据词性,就可提取出类联接。再归纳同一类联接的搭配词的义类,从而列举出某一关键词的搭配范围。归纳义类不是随意而为的,参照了《同义词词林》的义类划分标准,并在确保意义准确的情况下尽量用浅显的语言概括出来,在搭配范围后列举典型例证,兼顾到所有的搭配范围。这就是基于数据的方法,用这种方法,研究者凭借丰富的资源,可对关键词的搭配情况和搭配特点进行较为扎实的概括,如果语料库容量比较大,且有一定的代表性,那么研究结果就有较高的效度。
  由于这部词典收词选取的是有代表性的搭配结构,而不是所有的自由组合都不加取舍地收进来。所以,在索引中就有一个进一步取舍的问题。对于在语料中偶然出现的搭配,不是仅靠直觉,而是计算出关键词和搭配词的共现频率。在用检索软件检索关键词后,将所有的搭配词按降频排列,非常低的共现频率不予考虑,这样就可避免偶然搭配,很好地体现编写体例中的代表性特征。
  我们从北大CCL现代汉语语料库中查到的“选拔”一词的索引有3804条,下面是部分索引:
  (1)国统考是我国选拔硕士生的主要方式,它分为初试和复试。
  (2)在98MBA联考的考生中选拔,而不再组织统考或单考。
  (3)主要的原因是美国大多数商科院校不懂得如何选拔那些清楚如何在中国做生意的大陆中国人做留学生。
  (4)要论上阵打仗的本领,你不如我;至于选拔人才,任用贤人,我比不上你。
  (5)朝廷设置官员,为的是治理国家,应该选拔贤才,怎么能拿关系来作选人的标准呢?
  (6)有一年,长安举行考试,选拔能够直言敢谏的人才。
  (7)考官看了卷子,认为这两个人符合选拔的条件,就把他们推荐给唐宪宗。
  (8)样样精通,加上胆壮力大,后来被选拔做了小军官。
  (9)他认为这正是他选拔人才、改革文风的好机会。
  (10)国际水平的定期杂志,而且还承担了选拔诺贝尔物理、化学、经济三个领域的获奖者的任务。
  (11)就是通过全国竞赛和不列颠数学奥林匹克选拔的。
  (12)实际上也是从中选拔人才,任用做官。
  (13)一些政治开明的统治者从被统治者的最下层选拔出个别突出的人才,破格委以重任。
  (14)希望通过新制度不拘一格选拔人才,壮大封建地主阶级的力量。
  (15)孔子认为选拔人才的标准是“志于道、据于德、依于仁、游于艺”。
  (16)这时,过去通过军功、养士选拔人才的办法已经不能适应现实的封建中央集权制度
  (17)曾下诏强调要以“四科”辟士,这是指选拔人才应该掌握的四方面标准。
  (18)评价教育质量、选拔专业人材、诊断病人,鉴别超常、低常儿童……
  (19)通过国家考试结合平时的考核成绩选拔优秀的学生进校学习。
  通过分析可知,“选拔”的对象一般为从事某种职业的人或某类人才,这类有3733条记录,极少和表示作品的词搭配,在我们的统计中只发现71条记录。高频搭配词见表1。
  


  另外,在词语搭配研究中还有语料库数据驱动的方法,这种方法没有先入为主的观念,完全由统计数据驱动。这种方法有一套完整的概念:节点词(node)、跨距(span)和搭配词(collocate)等。节点词即关键词,跨距是节点词在其左右的作为其语境的词的数目,一般为-5/+5或-4/+4,即在节点词左右各取5个或4个词为其语境。将跨距内所有的搭配词与节点词的共现情况进行计算,根据公式,计算出T值(判断词项间预见和吸引程度的尺度)或MI值(判断词语间搭配强度),目的是计算搭配词与节点词的共现频率,寻求典型搭配。这种方法适用于大型语料库研究,也有利于发现新的语言现象。
  
  四
  
  《现代汉语常用实词搭配词典》的服务对象决定了语料的选择、搭配结构和搭配范围的确定,这只是语料库语言学的方法在词典编纂中的一个尝试,在语料库详实全面的材料、完善的检索统计功能和合理的人工干预下,相信这部词典定会准确、全面、科学而又实用。
  
  附注:
  ①《现代汉语常用实词搭配词典》是河北师范大学杨同用教
  授正在研制的一部词典。
  ②参照杨同用《关于编纂<现代汉语常用实词搭配词典>的设
  想》,未公开发表。
  
  参考文献:
  [1]卫乃兴.搭配研究50年:概念的演变与方法的发展[J].解放军外国语学院学报,2003,(3).
  [2]卫乃兴.基于语料库和语料库驱动的词语搭配研究[J].当代语言学,2002,(2).
  [3]邓耀臣.词语搭配研究中的统计方法[J].大连海事大学学报,2003,(12).
  [4]林杏光.论词语搭配及其研究[J].语言教学与研究,1994,(4).
  [5]王建新.语料库语言学发展史上的几个重要阶段.外语教学与研究,1998,(4).
  [6]黄昌宁,李涓子.语料库语言学[M].北京:商务印书馆,2002.
  [7]John Sinclair.Corpus Concordance Collocation[m].上海:上海外语教育出版社,1999.
  
  (刘凤芹,青岛大学汉语言学院)
其他文献
语言是人类历史的产物,也是一种社会现象。语言从产生的那一天起,就成为人与人之间交际必不可少的工具。在人类社会发展的进程中,语言占有其核心的地位。这正如英国著名的语言学家Frank R. Palmer所说:“语言是所有人类活动中最足以表现人的特点的,是打开人类心灵深处奥秘的钥匙。它是人们表达思想的至高无上的工具,是维系民族的纽带,是人类历史的宝库。”正因为这样,语言才能像摄像机一样,如实地反映出不同
由《热固性树脂》编辑部主办、中石华巴陵石化分公司环氧树脂事业部协办的第十二届《热固性树脂》编委会暨热固性树脂基体复合材料专家论坛于2008年4月11~16日在湖南省岳阳市
比喻是一种历史最悠久,运用最普遍的修辞方式。因其具有清新自然、生动形象、新颖奇特的特点。因而历来为人们所喜爱。钱钟书先生对她更是情有独钟。《围城》中的比喻融聚智慧、饱含哲理、活泼生动、幽默风趣。作者把内心深处的深刻感受、人生体验和对时世的态度不露痕迹地用比喻外化成文学语言,形成了独具特色的“钱钟书式的比喻”。《围城》这部作品历来都脍炙人口,一个重要的原因就是里面的比喻生动形象、巧夺天工,极大地满足
将苯并噁嗪(BOZ)和双马来酰亚胺树脂(BMI)按照不同的配比进行共混固化,制备了浇铸体和玻璃纤维增强的层压板。测试结果表明,BOZ和BMI共混的树脂浇铸体线性收缩率为0.85%~0.93
高考前一天,有家电视台做了一则各单位为考生提供良好的考试环境的报道。报道的标题是:“各地纷纷为莘莘学子们参加高考提供便利。”其中,一名记者在报道结束时说:“祝愿莘莘(xinxin)学子都取得好成绩。”看完之后,不由得为考生发愁:若是高考卷子上出现了这个词,看节目的学生该如何是好?   “莘”这个字的确有两个发音,然而,“莘莘学子”中的“莘”字应当读“shen(阴平)”,而不是记者口中发出的“xin
期刊
摘 要:双音反义复合词在对外汉语词汇教学中并没有引起足够的重视。究其原因,一是丰富的研究成果未能及时地用于课堂教学,二是在《汉语水平词汇等级大纲》中,80%以上的反义复合词为超纲词。本文对收集在《现代汉语词典》和《汉语大词典》中的312个反义复合词进行了考察。超纲字不是习得反义复合词的主要障碍。同时还发现:有60.8%的复合词词素是《大纲》中的甲级字和乙级字;而这些汉字复合成词后绝大部分成为超纲词
查德威克(James Chadwick,1891-1974)因发现中子,获得了1935年度诺贝尔物理学奖。
引言  钱钟书在他的《围城》中运用了大量的比喻来刻画作品中人物的形象,这些比喻恰到好处,使人物形象跃然纸上,他因此被誉为“比喻大师”,同时,他作品中的超常搭配也体现出他对语言的驾驭能力。本文主要分析《围城》中修饰语与中心语超常搭配产生的修辞效果。    一、超常搭配    语法单位之间的搭配如果符合语法规律、语义关系、逻辑事理和习惯搭配就是正常搭配;反之,就是非正常搭配,在语法研究中称之为“搭配不
一、引言    转喻研究与大量的隐喻研究相比是很少的。古希腊哲学家亚里士多德在《修辞学》中把转喻归纳到隐喻的概念之中。传统修辞学把转喻和隐喻看成是一种修辞现象,是人们在交际中惯用的装饰。自20世纪80年代以来,转喻和隐喻被认知语言学看作是人类重要的思维方式,在组织语言、思维和行为中起重要作用,是人类认识客观世界的重要手段。在转喻和隐喻的关系上,有些学者认为,转喻比隐喻更具有本原性,即语言本质上是转