对义项设立是否贴切的一种检验方法

来源 :辞书研究 | 被引量 : 0次 | 上传用户:luoxingrobin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:文章根据词义标注的实践设计了一种检验词典义项设立是否贴切的方法,包括建立大规模平衡语料库,随机抽取一定规模语料作为检验库,对抽检语料做完全标注三个步骤。通过该检验方法能发现现有词典义项设立中存在的若干问题。
  关键词:词典释义 检验 词义标注
  一、词义标注对词典检验的启示
  释义从一定意义上说是词典编纂的中心工作。一部词典的质量高低很大程度上决定于释义的质量(胡明扬1982)。加之词义概括、多义词义项划分、释义几个过程都比较复杂,处置不当容易导致诸如“肢解词的完整理性意义”(邹酆2003)、“义项关系不当”(吴云芳,俞士汶2006)等问题。胡明扬等(1982)指出:“词义概括是否得当,义项划分是否合理等问题,其实是可以通过语料检验的方法来发现并加以改进的。”然而词典释义检验有多大必要性、检验方法应如何设计、通过检验可以解决哪些问题等,尚少细致的讨论。
  我们在完成课题“基于国家语委‘通用语料库’之上的汉语义频词库的开发(SCT)”过程中发现,对词典释义的检验不仅必要,而且不能随意为之。课题的核心是计算机词义自动标注,也就是使计算机根据词典的义项设置,给使用中的多义词自动标注一个合适的义项。课题使用的词典是《现代汉语词典》(1996年修订版,以下简称《现汉》),目前已经完成了对3771个高频、双音节多义词的研究。作为课题的一个子项目,我们研制了“验证库”,即首先从大规模语料库中为每个多义词抽取一定量的句子形成语料库,然后由人模拟计算机标注一个义项,再由计算机自动标注义项,两相对照以检验计算机标注的正确率。在这个过程中发现部分句子难以标注,原因有多种:有的是仅凭句内上下文的确无法判断词义;有的是机用词典与普通语文词典的性质与功能不同所致;也有的表现为语文词典原有义项设置不合理。
  在涉及词典义项设置的问题上,课题中对《现汉》调整有百余处,当然这些调整主要缘于机用义项库有着不同的性质与功能,调整的类型、原则、方法在《机用义项库在词义标注中的作用及其完善》一文中做了介绍(苏新春等2010),然而其中也不乏传统词典本身可做改进之处,从这个角度来说,我们认为词义标注正是实践了从词典释义回到言语实际的检验过程,对词义标注的结果及其困难进行深入分析就可以发现词典存在的不当之处。本文把词义标注相关课题中与语文词典释义相关的部分提取出来,设计了一种词典释义的封闭式检验方法,希望对一般词典编纂中义项的设立和释义有所帮助。下文就介绍这种检验方法的详细步骤,并举例分析课题中发现的词典释义不当之处。
  二、检验方法——封闭式检验的三个步骤
  封闭式检验旨在于一个封闭的语料库中,通过词义标注考察词典义项设置是否合理,重点考察一个“词形”所对应的意义的整体范围、义项关系、义项与语料的对应关系,进而分析词典中义项的概括模式、粒度是否与语料契合,个体义项是否恰当。有三个基本步骤:
  (一)建立大规模平衡语料库
  建立大规模平衡语料库作为基础语料库,要能覆盖一般语文词典的基本范围,语料构成要与词典的性质、定位相对应。我们的课题以现代汉语为研究对象,要求语料能反映现代汉语的基本状况。研制的平衡语料库有2亿多字,主要包括三个部分:(1)国家语委研制的“现代汉语语料库”;(2)部分人民日报语料(2001年后的若干月份);(3)文学作品及部分教材语料。
  “‘国家语委现代汉语语料库’是一个大型的通用语料库。该语料库以语言文字的信息处理、语言文字规范和标准的制定、语言文字的学术研究、语文教育和语言文字的社会应用为主要服务对象……选材有足够的时间跨度,语料抽样合理、分布均匀、比例适当,能够比较科学地反映现代汉语全貌。”(靳光瑾等2005)“国家语委现代汉语语料库”设计比较合理,我们采用了它的基本结构和内容,但其字数略少,语料稍嫌陈旧,因而做了些补充。
  (二)随机抽取一定规模的语料作为检验库
  随机抽样检验是指从大规模基础语料库中随机抽取一定量的句子组成检验语料库。在SCT课题中确定抽样句子数时考虑到了词频高低、词义标注规则复杂程度(一般标注规则复杂的,其用法也就复杂,就需要更多的语料)、人工标注任务量三个因素。对3771个多义词,抽取的总句子数达493369个,一个词最多有233个句子,最少有100个句子。如此规模的语料量虽很难完全覆盖生僻义、方言义、行业义等不常用的义项,但覆盖词的常用义、较常用义,反映其基本面貌,则是没有问题的。
  随机抽取步骤主要从检验方法的可行性方面考虑。在总语料库中检索3771个词总共得到245万个句子,即便有计算机辅助也难以细致分析。检验库规模仅为原来的20%,既能保证充分反映原来大规模基础语料库的特征,又大大减轻了检验的工作量。
  (三)对抽样语料做完全性标注是这一方法的核心
  完全标注是指在一个封闭的验证语料库中,给每个例词都标注唯一的义项,并保证标注结果的一致性。如不能顺利完成标注,或者标注结果不统一,则分析其根源,检查是否为词典词义归纳、义项设置不当所致。
  三、方法的运用——对现有义项存在问题的分析
  封闭式检验中对语料进行义项标注的过程,既是对使用中的多义词义域规模、结构进行调查的过程,也是将词典释义与言语实际进行对照,考察每个义项的义域在整体义域中的地位、比例以及与相邻义项关系的过程。其核心意义在于把词的实际义域、词典释义的义域、个体义项义域、个体义项间的关系这几个要素综合起来,做定量考察。不仅可以检验个别义项是否合理,是否有新义、漏收义,更可以从深层次发现词典释义中的义项粒度、义项关系等方面存在的不合理之处。下面举例着重说明在义项粒度、义项关系方面发现的问题。
  (一)部分语料无法标注,反映词典中义项粒度过小的问题
  多数情况下义项粒度与词典规模、用途有关,在词的整体义域一定的情况下,大型词典义项粒度小,义项数多;小型词典义项粒度大,义项数少,这种义项粒度大小不一的现象是合理的。   但是如果义项粒度过小则会导致词典释义覆盖力不足,造成一定数量的语料无法标注,这时就是不合理的。如在《现汉》中:“出场①演员登台(表演)。②运动员进入场地(参加竞赛或表演)。”我们从大规模语料库中随机抽取了73个含“出场”的句子做测试,超过20%的句子无法标注义项,如:
  (1)有人怕闹事,开始退场,剧团的领导出场,恳求大家安静。
  (2)新式战机隆重出场。
  词典以动作发出者区别两个义项,而例句中“剧团的领导”、“新式战机”既不能归人“演员”或“运动员”,也很难确定与哪个义项在语义上更相近,因而无法标注。
  再如:“过道①新式房子由大门通向各房间的走道。②旧式房子连通各个院子的走道,特指大门所在的一间或半间屋子。”在有些句子里无法标注,如:
  (3)草地的两边种了几排桑树,中间露出一条宽的过道。例句(3)里的“过道”既不属于“新式房子”,也不属于“旧式房子”,类似的还有“车厢过道”、“剧场过道”等都不在词典释义范围内,也无法判断这些义项与哪个更相近,因而无法标注。
  义项粒度过小还有一种表现,即难以涵盖词义发生的一些新变化。
  如:“封面①线装书指书皮里面印着书名和刻书者的名称等的一页。②新式装订的书刊指最外面的一层,用厚纸、布、皮等做成。③特指新式装订的书刊印着书刊名称等的第一面。也叫封一。”尽管以上三个义项释义详尽具体,然而不能覆盖“专辑封面”、“相册封面”、“简历封面”等“新事物”。
  以上几个词条的相同之处在于:(1)词典释义中每个义项都是完整的,都对应一定量的语料。(2)词典释义不能覆盖全部语料,很多语料的意思与相邻的两个义项都有相似之处,但是难以确定属于哪个义项。(3)词典释义中每个义项的义域都十分狭窄,所指的动作或事物都十分具体。(4)如果在原有义项粒度基础上用增设义项的方式覆盖所有语料,义项设置将十分繁杂。因此,这类词的根本问题不是漏收词义,而是义项粒度过小,概括性不足。“义项的概括性要求这个义项具有普遍意义,即通过这个义项来解释一系列相类似有时又有细微差别的语义现象,人们在阅读过程中遇到与此义有关的语义,都应从这个义项得到满意的解释,或者从这个义项中受到启示,去求得这个词的最确切的含义。”(汪耀楠1990)如果适当“合并”义项,增加概括度,释义将更具解释力,也更加简洁。
  (二)标注结果不唯一,反映义项间存在交叉覆盖
  标注结果不唯一是指在同一具体语境下,一个多义词可以标注为相邻的两个或多个义项。造成这种现象的原因有很多,如语境不充足等。但有时语境充足,仍然难以标注唯一义项,往往就反映出义项交叉覆盖的问题。
  如:“发表①向集体或社会表达(意见);宣布:~谈话I~声明I代表团成员已经确定,名单尚未正式~。②在刊物上登载(文章、绘画、歌曲等):~论文。”下面的句子中“发表”同时符合义项①②:
  (4)阎世铎在人民网发表谈话勇敢面对中国足球前进中的问题。句(4)既符合“向集体或社会表达”的特征,又是“以文章形式”“在刊物上登载”。进一步分析发现造成这种状况的原因是两个义项意义相近却没有对立的区别性义素,如表1所示:
  动作对象方面,义项②虽未做说明,实际与义项①是一样的;动作方面,义项②的义素“登载”是义项①“表达”的一种形式;动作内容方面,义项①“意见”是从内容方面说的,义项②“文章”等是从载体方面说的,“意见”也可以以“文章”的形式发表;动作方式上,义项②说明通过刊物,义项①没有说明。总之,义项②的释义比较明确地指出通过刊物“发表”,义项①却不设范围,大致包含了义项②的内容。
  那么原有的释义能不能让它形成具有区别特征的对立性释义呢?应该是可以的,如可在“发表”的方式上加以区别,义项①改为“口头表达(意见)”即可。
  其他原因也可能造成义项间的交叉覆盖,如“出门”有三个义项:“①(~儿)外出。②(~儿)离家远行。③(方)出嫁。”义项①的释义词“外出”在同一词典中的释义为“到外面去,特指因事到外地去”。“到外面去”与“出门①”对应,“因事到外地去”与“出门②”对应,这样实际上是导致了“出门①”同时包含义项①②的意思。如此,所有可标为义项②的句子都可以标为义项①,如:
  (5)他想,出门一个多月,究竟发生了什么事呢?
  以上两词出现的问题比较隐蔽,在检验中如果仅仅寻找典型例子很容易错过,而唯有在一定量的语料的词义标注中,在人、机标注结果的对比中才能发现问题。
  四、结论
  本文根据“基于国家语委‘通用语料库’之上的汉语义频词库的开发”课题的词义标注实践,概括出了可以应用于语文词典编纂中检验义项设立、释义是否得当的方法,这种方法的实质是对真实语料进行穷尽式的调查,从而将产生于典型取样的词典释义放到多义词的实际语言运用中,系统、量化地检验其是否周全、均匀、对称。这种方法的优点主要有两个:其一,可以发现语文词典义项、释义中存在的一些潜在问题;其二,利用语料库与抽样技术,不需要投入过多的人力、物力。当然上面分析的某些现象对现有的语文词典来说有点“苛刻”,但是这种检验和讨论可以使传统词典释义更加贴近真实语料,有利于提高义项概括与释义的科学性、可操作性。
  (山东大学国际教育学院 济南 250100)
  (责任编辑 李潇潇)
其他文献
摘 要 文章以上海辞书出版社的《唐诗鉴赏辞典》为例,探讨文学鉴赏辞典的编写原则和方法。认为在眼下大众日益被新媒体阅读所吸引、图书市场竞争激烈、目标受众更趋细化的情况下,只有从撰写方式和营销方式上做出改变,才能让辞典更好地服务于读者。  关键词 大众阅读 文学鉴赏辞典 工具书 多元出版 可读性  王明华先生在《辞书研究》2009年第6期发表了《理想的文学鉴赏辞典之初探》一文,以上海辞书出版社的《唐诗
期刊
辞、书是让人查证字词、明白事理、予人方便的最可靠的工具,但也有大谬不然者。由于工作关系,笔者翻看了几部学生常用的古汉语工具书,在“椎”、“椎鲁”条中发现一个有趣的现象。《古代汉语字典》(2005)“椎”字条义项③为“朴实,鲁钝”,引苏洵《六国论》:“其力耕以奉上,皆椎鲁无能为者。”《古代汉语常用字字典》(2004)“椎”字条义项④为“迟钝”,引苏洵《六国论》:“其力耕以奉上,皆椎鲁无能为者。”《古
期刊
摘要:释义是词典编纂的灵魂,因此研究双语词典的释义模式对完善和提高双语词典的编纂水平极具理论和现实意义。文章分析了双语词典释义的多元本质,并阐述其意义表征中的自主一依存模式。结果表明:这种特定的结构模式存在于义项粒度、义项结构和义项表征模式等方面,并表现出相对性特征。  关键词:释义 自主 依存 相对性  一、引言  自主和依存作为哲学上的一对范畴,指的是有联系的甲乙两事物间的一种不对称的关系(徐
期刊
摘要 法国词典学家Henri Bejoint先生新撰的《英语词典学》反映了该领域研究与实践的最新成果。作者立足于欧洲词典学的宏观背景,以一位非英语人士的视角,为我们勾勒了一幅17世纪至21世纪英语单语词典编纂思想、源流、原则、技术、方法发展演变的全景图,并重点阐述了20世纪中叶以来词典编纂的行进态势。该书是作者不断探索的一部集大成之作,对国内词典编纂、研究与教学是具有十足分量的“他山之石”。  关
期刊
摘要 文章以五大英语学习型词典和《新英汉词典》中的词条“monopoly”的例证为个案,研究英语学习型词典例证的解码与编码功能。配例能否传达明确的编纂意图很大程度上取决于词典编纂者是否正确预测特定用户群在何种情形下可能查询目标词,是否意识到解码意图的例证与编码目的的例证发挥的作用不同。解码例证应主要阐释目标词的含义,而编码例证则应凸显典型搭配和用法;两类例证都应显示目标词的典型语境。  关键词 例
期刊
摘要 文章论述了以检索率作为《中国大百科全书》第二版精粹本设条重要原则的依据和必要性;探讨了百科全书条目检索率的界定及操作;论述了与检索相关的种种因素;探讨了检索率与系统性的关系及检索效果等。  关键词 检索率 系统性 检索效果  《中国大百科全书》(以下简称《大百科》)第一版因为是从无到有,为了便于编纂,所以采取的是按学科分卷出版的方式,属于第一版系列的共包括74卷。第一版的一个显著特色就是系统
期刊
摘 要 文章主要从框架设计和体例规定方面分析《水书常用字典》的不足,指出它在条目安排和释义等方面的突出问题。由此分析民族文字字典编纂中的共性问题,思考其理想的编纂模式。  关键词 水书 字典 评述 民族文字字典 编纂模式  在少数民族语文辞书编纂中,民族语言词典的成果丰硕,在编纂理念和编写技术上都达到很高水平,但民族文字字典(字书)迄今品种有限,总体编写水平较低,与其他语文辞书相比存在很大差距。其
期刊
摘要 《牛津高阶英汉双解词典》第7版基于学习型词典的释义特征,切实把握原文释义,并充分利用词典其他部分提供的信息,同时参阅各种参考书来翻译对应词,其中的经验与教训对双语或双解词典的对应词翻译有一定的借鉴意义。  关键词 双解词典 学习型词典 对应词 翻译 语义等值  《牛津高阶英汉双解词典》第7版(2009,以下简称“7版”)对应词的翻译是根据原文释义提供最“等值”的对应词。要完成这个任务就必须充
期刊
摘要近20年来,俄语发生了巨大变化,主要表现在两个方面:一是大量外来词涌入俄语;二是俚语、俗语、黑话、詈语等进入公众话语之中。文章对俄语发展进行了历史考察,阐述上述变化产生的原因及对俄语的影响。  关键词俄语外来词俚语俗语  一、引言  有关最近十年来俄语正经历巨大变化的说法在俄罗斯社会各阶层中普遍流传。同时,语言中预想的变化被看成是种危害。与之相关,人们常说现代言语实践中外来词“泛滥”,主要是指
期刊
摘要:文章对商务印书馆国际有限公司2010年出版的《英汉多功能词典》进行评析,认为《英汉多功能词典》(2010)的母本词典是一部面向非英语本族语使用者而设计、编纂的中阶学习词典。该词典兼顾解码和编码两种功能,在宏观结构和微观结构上都表现出明显的外向型特点。在我国大陆出版的《英汉多功能词典》,参照我国大陆的英语课程标准对母本词典进行了修订或调整,同时按照我国大陆的语法规则、语法习惯以及译名标准提供汉
期刊