现代汉语兼语结构的自动识别

被引量 : 0次 | 上传用户:yoyo88420
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
兼语结构是汉语中较为常见的结构之一,在口语及书面语中出现的频率都很高。语言学本体界自上世纪中叶以来,关于兼语结构的研究,经历了由提出到论争,最后趋向统一的过程,明确地对兼语结构进行的研究已经很多了。这些研究大多没有超出三个平面语言理论的范围,缺乏定量的分析。关于汉语动词小类研究非常重要,有人提出了动词的“特殊小类”,列出了趋向动词和能愿动词两类,“兼语动词”的提法在目前的语法学界还很难见到。汉语教学、汉语研究、汉语信息处理都需要更大规模地调查研究兼语结构的形式特征。兼语结构的计算机自动识别目前还没有见到过成果发表,但这是进行大规模调查的前提条件。兼语结构的自动识别对用统计方法处理汉语也将起到重要的作用。本文主要是关于兼语结构自动识别的研究,采用统计与规则结合的方法。本文的研究发现:V1是兼语结构自动识别的触发点,因此,建立一个尽可能详尽的V1词表是兼语结构自动识别的关键,V1词表中词按其带兼语的相对可能性强弱进行排序,对提高识别的召回率有一定的贡献;完备的规则,即兼语候选项特征的建立,对兼语结构中兼语的识别能起到非常重要的作用;一个兼语候选项的特征往往不止一个,这就须要有一个恰当的方法来组织这些特征,我们设计了兼语候选项特征对该项能成为真正兼语的支持度的算法,有效地对每个兼语候选项综合特征进行了量化计算,达到了组织这些特征并识别兼语的目的;对兼语结构中V2的自动识别也是兼语结构自动识别不可或缺的步骤,但它涉及到动词短语的自动识别,尤其是其右边界的划定问题,比较复杂,也已经超出了本项研究的范围,因此,本文研究结果仅是自动标示出V2的候选项。我们在200万字的《人民日报》1998年1月的语料上进行自动识别的试验和测试。尽管我们在本文研究的兼语结构范围内建立了比较详尽的V1词表,但并不能达到100%的V1召回率(理论上应该能达到),这一方面是语料本身的质量造成的,另一方面和本文研究所制定的规则也有一定关系。关于兼语的识别,兼语候选项特征与支持度的计算起到了相互补充的作用,兼语候选项的某些特征使支持度的计算更简便,支持度的计算又解决了仅凭候选项特征无法解决的问题。实验结果显示,我们的识别达到80%左右的调和平均值,接近实用水平。
其他文献
雇主品牌是组织管理领域的一个新兴课题,近年来受到了学术界的关注。到目前为止,研究者在其内容结构问题上还未达成一致意见,也未形成一套行之有效、被广泛使用的测量工具。
<正> 随着医药流通体制改革的推进,药品流通市场得到了不断的净化,购"放心药"的环境也因此而得到大大改善。为确保所购药品的质量,建议从两个方面考虑,一是在药监部门对药店
<正>大学生作为一个特殊的饮食消费群体,正处在青春期的后期,学习任务较重,学生要进行大量的脑力劳动和体力活动,能量消耗大,因此营养均衡对该人群的身体健康有重要意义。但
现有的研究主要探讨经营性营运资金的管理问题,较少涉及从财务战略管理的角度分析营运资金管理问题。本文通过理论分析认为,营运资金管理包含有财务战略管理要求,分为三个子
陈瑜,1963年毕业于北京大学经济系,现任世界新经济研究院院长、中国国际交流促进会副会长、中国国际经济科技法律人才学会常务副会长。由于创立了消费资本化理论,荣获"2005年
<正> 一、目前工业企业资金营运中的主要问题资金是工业企业的"血液"。"八五"时期,绵阳市工业企业在资金短缺,供求矛盾突出的困难环境中,不断深入改革,积极适应市场新机制的
无论是形式还是内容,成语是民族的语言精华。迄今为止,许多学者都对成语的很多问题作了各种各样的研究,然而,可否认的是成语作为一门学科还有很多尚未被探讨的问题,其中就有与五官
与常规水电相比,抽水蓄能电站的工程地质勘察的重点与难点问题相对突出,本文根据已建、在建及前期勘察阶段的多个抽水蓄能电站的勘察经验,总结剖析了重点与难点问题。如站址
企业社会治安综合治理是一项庞大的系统工程。目前企业社会治安面临许多新问题,应该以科学发展观为统领。加强防控体系建设,齐抓共管,常抓不懈,搞好矛盾纠纷排查,开展综合治理,有利
企业内部治安保卫工作直接关系到企业的安全,影响着一个企业的生存与发展。企业治安状况如何,将直接影响着社会治安的稳定。结合企业的综合治理工作,浅谈企业保卫部门在其中