“不形”短语的自动识别方法和特征的大规模调查研究

来源 :北京语言大学 | 被引量 : 0次 | 上传用户:toponeforever
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
“不”与形容词组合成“不形”短语是形容词否定形式中最重要的一种,也是现代汉语中一种比较复杂的语言现象。“不”和形容词的组合受到各种因素的制约和影响。传统语言学领域对形容词的研究较多,但对“不”与形容词组合的专题研究相对较少,而且调查规模比较小,研究工作侧重于句法意义的研究。一方面,汉语教学、汉语研究、汉语信息处理等各个领域都需要更大规模地调查研究“不形”组合的形式特征。同时,另一方面,对“不形”短语的机器自动识别还没有见到有成果报道,但这是进行大规模调查的前提,并且对于用统计方法处理汉语也将起到很重要的作用。 本文的研究主要包括四个部分。第一部分是对“不形”短语进行自动识别方法的研究;第二部分是在几个文本库中对“不形”短语进行分布统计;第三部分是在大规模的语料中对“不形”短语进行形式特征(包括线性邻接特征和语法功能特征)的调查研究。这三方面的研究都采用人机结合的办法:计算机软件在基本保证查全率的条件下进行尽量准确的自动检索和统计,人在此基础上进行筛选和整理并总结规则。最后一部分我们考察了“不形”短语和形容词在线性邻接特征和语法特征上的异同以及“不+形容词+名词”格式的特点。 我们的识别工作是对8000多万字的当代大陆小说作品文本库进行的。我们的识别方法能够保证相当高的查全率,从准确率看,尽管对于兼类词用简单规则进行排歧尚难以彻底解决所有问题,但我们利用词例化规则也取得了较为理想的效果。 我们的分布统计工作是在当代大陆小说作品文本库、现代名家小说作品文本库、港台小说作品文本库、古典小说作品文本库和人民日报文本库这5个文本库(共约3.5亿多字)基础上进行的。 我们对于“不形”短语线性邻接特征和语法功能特征调查研究以及“不+形容词+名词”格式考察,都是建立在近8000万字规模的当代大陆小说作品文本库的基础上的,这在以前的传统语言学领域中还没有人做过。所得的结果一方面为相关研究提供了可靠的数据,另一方面也启发我们从新的角度研究形容词及形容词短语。
其他文献
目的评价改良铺灸法治疗脑卒中后遗症肱二头肌肌张力增高的临床疗效。方法将62例初次发病脑卒中后遗症肱二头肌肌张力增高患者随机分为治疗组和对照组各31例。对照组接受常规
目前,市场上的木地板种类繁多,大体分为实木地板块、竹材地板、三层实木复合地板、多层实木复合地板、胶合木地板、强化木质复合地板等。消费者选购木地板,应了解各种木地板
目的:观察芪附理中灌肠方对溃疡性结肠炎(UC)大鼠血清白介素-8(IL-8)、白介素-10(IL-10)及肠黏膜细胞间黏附分子-1(ICAM-1)表达的影响,以探讨其治疗UC的可能机制。方法:SPF级
本文主要探讨益阳方言存现句的句法特征并试图对具有施事格的非作格动作动词在普通话及益阳方言存现结构中的不对称用法作出合理解释,从而为存现动词的非宾格假设提供更进一步
辨别宾语和状语的问题是语法学界一直关注的重要研究课题之一。但是迄今为止区分标准尚未十分明确。蒙古文信息处理领域的工作开展也离不开此区分依据的完善。本文针对蒙古文
对比性语篇标识语是标识语言片段之间对比关系的语言表达式。尽管对比性语篇标识语是语言学学术论文中常用的语言形式之一,但段首句中的对比性语篇标识语还需进一步探讨。本文
<正>中国作为世界文明古国之一,是国际上公认的。那么它的文明究竟在什么地方呢?一般的说法,是指它具有悠久的历史,灿烂的文化,还有什么地大物博,富有勤劳、勇敢和聪明、智慧
自从上世纪六十年代开始,第二语言习得研究就形成了自己独立的学科,并取得了较大的成就。语言学家们分别从理论和实践两方面入手,在宏观和微观方面都取得了积极的进展。 本文
在云制造模式下,制造服务评价指标的赋权方法直接影响制造服务的评价数值和选择结果。采用G1-法和变精度粗糙集理论两种主、客观赋权法,分别对云制造服务评价指标进行赋权,然
本文所称的译者的双重性指的是译者的主体性和受体性。在翻译过程中,译者,作为翻译实体存在着被动性,受到多方面的制约,其中有来自译者所处的时代的和他所处的社会的;有来自