论文部分内容阅读
兼语结构是汉语中较为常见的结构之一,在口语及书面语中出现的频率都很高。语言学本体界自上世纪中叶以来,关于兼语结构的研究,经历了由提出到论争,最后趋向统一的过程,明确地对兼语结构进行的研究已经很多了。这些研究大多没有超出三个平面语言理论的范围,缺乏定量的分析。关于汉语动词小类研究非常重要,有人提出了动词的“特殊小类”,列出了趋向动词和能愿动词两类,“兼语动词”的提法在目前的语法学界还很难见到。汉语教学、汉语研究、汉语信息处理都需要更大规模地调查研究兼语结构的形式特征。兼语结构的计算机自动识别目前还没有见到过成果发表,但这是进行大规模调查的前提条件。兼语结构的自动识别对用统计方法处理汉语也将起到重要的作用。本文主要是关于兼语结构自动识别的研究,采用统计与规则结合的方法。本文的研究发现:V1是兼语结构自动识别的触发点,因此,建立一个尽可能详尽的V1词表是兼语结构自动识别的关键,V1词表中词按其带兼语的相对可能性强弱进行排序,对提高识别的召回率有一定的贡献;完备的规则,即兼语候选项特征的建立,对兼语结构中兼语的识别能起到非常重要的作用;一个兼语候选项的特征往往不止一个,这就须要有一个恰当的方法来组织这些特征,我们设计了兼语候选项特征对该项能成为真正兼语的支持度的算法,有效地对每个兼语候选项综合特征进行了量化计算,达到了组织这些特征并识别兼语的目的;对兼语结构中V2的自动识别也是兼语结构自动识别不可或缺的步骤,但它涉及到动词短语的自动识别,尤其是其右边界的划定问题,比较复杂,也已经超出了本项研究的范围,因此,本文研究结果仅是自动标示出V2的候选项。我们在200万字的《人民日报》1998年1月的语料上进行自动识别的试验和测试。尽管我们在本文研究的兼语结构范围内建立了比较详尽的V1词表,但并不能达到100%的V1召回率(理论上应该能达到),这一方面是语料本身的质量造成的,另一方面和本文研究所制定的规则也有一定关系。关于兼语的识别,兼语候选项特征与支持度的计算起到了相互补充的作用,兼语候选项的某些特征使支持度的计算更简便,支持度的计算又解决了仅凭候选项特征无法解决的问题。实验结果显示,我们的识别达到80%左右的调和平均值,接近实用水平。