论文部分内容阅读
词性标注一直是汉语语文辞书编纂未能很好解决的难题。近年来,随着汉语语法理论研究的深入和词典编纂理论的发展,这个问题得到了普遍的关注,不少词典开始标注词性。现代汉语词类的划分,或者说语文辞书词性的标注,仅仅依靠内省式的简单枚举法既不能全面地反映词语的语法功能,也不能对词语的词性进行全面、明确的标注。在大规模的语料库基础上,进行词性标注研究成为一种必然。基于大规模语料库之上的汉语语文辞书词性标注,已有的研究成果不是很多。在大规模语料库基础上的语文辞书词性标注研究,不仅能够为现代汉语语法理论的发展、现代汉语词类的划分提供一定的借鉴,而且能够为辞书编纂、对外汉语教学以及中文信息处理的研究实现提供切实的参考价值,具有很强的社会效益。正是鉴于这样的思考,我们在2004年9月初决定,以和清华大学计算机系合作完成的包含11万词语的《现代汉语电子词典》为基础,并参照北京大学计算语言学研究所开发的《现代汉语语法信息词典》,选取了目前标注词性的现代汉语语文辞书中较有代表性的《现代汉语规范词典》、《应用汉语词典》、《新世纪汉英大词典》和《多功能学生语文词典》等四本词典,录入了四本词典所收字、词、语全部条目,最终建成了一个《现代汉语语文词典词性标注数据库》。本文正是在语料库的基础上,以现代汉语的词类研究成果为指导思想,着重分析了当前现代汉语语文辞书词性标注中存在的问题:不同的辞书对某些字、词、语的词性标注存在很大分歧。通过对数据库中的词性标注有差异的词语进行详细考察,我们把产生这些差异的原因初步归为五个方面:词类的不同以及词典体例的不一致;语法功能多样性或判定标准不同导致词性标注不同;辞书所采用的词类层级系统不同;义项的释义角度不同导致词性标注不同;义项确定不一。并且在每个原因中又针对具体的现象进行了概括性的分析。由于单字是语素还是词的标准不易操作,因此我们并没有对每个单字逐一进行详细考察,只是指出了涉及语素的词条约有4284个,占总数的15%。同时利用从人民网语料库中随机抽取的语料,我们又对24053个词条(包括词、短语)进行了考察,重点分析了成语、熟语、惯用语以及固定词组的划界,动词,形容词,名词,副词,区别词,状态词,量词,叹词和拟声词,并试着确定了词性标注的可操作特征,或者是进行了定量的统计,尽可能地为语文辞书的词性标注提供一个参考。基于上述分析,我们总结概括出了词典标注词性应当遵循的几项基本原则:第一,语言单位的划定要明确,既要注意词与语素的划界,也要注意短语