现代汉语构词计量研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:daihongjun2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉语构词是汉语语言学的重要领域。针对汉语词的内部结构及相关的构词现象,已经进行了为数众多的研究,并积累了丰富的认识。汉语构词研究的传统路向往往将研究视野限定在单个的汉语词,容易忽视汉语词所处的真实语境,对于定量方法的重视程度也有待提高。这些因素使得汉语构词研究难以考察与语言真实使用密切相关的构词现象,尤其是汉语词在语言真实使用当中的形成机制和相关的构词属性。本研究尝试了一种基于真实语料并采用定量方法的汉语构词研究新路向。新路向是一种基于使用的汉语构词研究路向,作为其研究对象的词是在汉语真实语境当中使用着的词。由于字是汉语真实语境中能够被直接观察的唯一语言单位,新路向将其作为构词的基本单位,而词被视为字在语言真实使用中形成的固定序列。新路向充分尊重汉语词作为隐含在表现为连续字流的真实语境之下的语言单位的事实。除了在真实语境中考察单个的词之外,新路向也将研究视野拓展到了缺乏词边界的整个汉语语境。这种经过拓展的研究视野有助于探索汉语词在语言真实使用中的形成机制和相关构词属性。同时,新路向选择比较简单并且符合人类认知规律的计量指标,以便让研究结果在语言认知方面具有说服力。本研究采用这种新路向试图解决三个问题。(1)真实语境中的字-字同现关系的统计特征如何反映字的自由/粘着性和定位性?(2)不同的字具有怎样的构词能产性定量特征,其与字-字同现关系的统计特征之间有何联系?(3)字-字同现关系的统计特征如何反映二字词在真实语境中的形成机制?本研究以语言复杂网络的模型和指标为主,计量语言学的传统方法为辅来解答第一个研究问题。一方面,基于结合面宽窄的思想,提出了同现字丰富程度的概念。给定字的同现字丰富程度越高,其结合面就越宽。基于汉语真实语料,将给定字及其与其他字形成的同现关系构建为有向有权的字同现网络,采用平均n次累积出/入度/熵的指标来测量给定字单侧的同现字丰富程度。从概率配价的角度而言,这类计量指标反映的是给定字形成字-字同现关系的效率。另一方面,通过计量语言学的传统方法,对给定字单侧的同现字的类符总数和熵的增长趋势进行了非线性拟合,并基于拟合曲线的计量特征来反映字在单侧的同现字丰富程度。结果表明,字的同现字丰富程度能够在较大程度上反映出字的自由/粘着性和定位性。给定字单侧的同现字丰富程度与其在同侧的构词概率呈现显著的负相关。单侧同现字丰富程度越高,给定字就越不倾向于与同侧的同现字构词(或者说在该侧的自由性趋势越强);反之,给定字就越倾向于与同侧的同现字构词(或者说在该侧的粘着性趋势越强)。给定字与其单侧频数最高的同现字往往是要构词的。这一趋势对于单侧同现字丰富程度较低的字尤其明显。给定字单侧的同现字丰富程度与其在同侧的构词偏好也呈现显著的负相关。给定字两侧的同现字丰富程度的差异能够大致反映其定位性。统计结果显示,常用字在右侧的同现字丰富程度的总体水平要显著低于左侧,表明这些字可能更容易与右侧的字形成词或者短语。字的整体同现字丰富程度能大致反映字的整体自由/粘着性。整体同现字丰富程度最高的字往往具有语法化趋势,其中也包括了用作单字虚词的字。这些单字虚词在真实语境中是重要的分词符,其对应字的高水平的同现字丰富程度反映着这些词在真实语境中的形成机制。非线性拟合结果表明,字单侧的同现字类符数和熵的增长趋势在较大程度上可以用适宜的曲线方程进行描写。方程的计量特征也能大致反映字在单侧的同现字丰富程度,以及字在同侧的自由/粘着性。然而,非线性拟合的方法的适用性不及基于平均n次累计度/熵的方法。解答第二个研究问题,首先需要进一步明确构词能产性的本质,并区分不同的构词能产性计量指标的意义。构词能产性被区分为过往和当前构词能产性两大类。前者是指在当前的共时阶段之前的构词能产性,而后者是指当前共时阶段的构词能产性,能预测未来产生新词的能力。从同现字丰富程度的不同水平段抽取了部分字,并考察了其过往和当前构词能产性的计量特征。结果表明,字的过往构词能产性与同现字丰富程度之间存在一定的关系。从概率配价的角度来看,这种关系反映着字形成字-字同现关系的效率与构词能力之间的关系。对于同现字丰富程度极高和极低的字,其过往构词能产性一般都是极低的。具有高水平的过往构词能产性的字,其同现字丰富程度应该处于适中的水平。非线性拟合的结果显示,字构词的类符总数的增长趋势可以在较大程度上使用适宜的曲线方程进行描述。曲线的统计特征能够大致反映给定字的当前构词能产性。然而,非线性拟合的方法的适用性不及基于一频次词的构词能产性指标。另外,字构词的丰富程度也能反映其当前构词能产性。字的过往和当前构词能产性之间具有明显的正相关性。字在当前构词能产性上的差异能够反映词库与词法之间的平衡关系。给定字的当前构词能产性越强,其构词过程对于词法的依赖程度可能就越高;反之,其构成的词就越有可能是存储在心理词库当中。本研究从频数的概念入手,研究汉语二字词在真实语境中的形成机制。首先提出假设,认为频数效应在二字词形成过程中的具体作用是在其局部语境中将其突显为一个内部结合强于外部结合的结构性整体。满足这种条件的字-字同现对是文本对应的有向有权字同现网络中的二节点边岛屿。在取自两种语类的汉语真实语料的基础上,分别构建了两个以字为节点、有向的字-字同现关系为边、字-字同现关系频数为边权重的语言网络模型。对两个网络的岛屿提取与分析结果表明,基本上只有汉语二字词才能在有向有权字同现网络中形成二字边岛屿(即,内部结合强于外部结合的有序字对)。而且,任何二字词在适宜的语境中都有机会形成二字边岛屿。这些发现表明,汉语二字词作为结构性整体的特性能够在缺乏词边界的真实语境中自行体现出来。边岛屿的概念为汉语二字词作为结构性整体在缺乏词边界标记的语境中的突显提供了明确的机制,该机制对于二字词在汉语的真实使用当中的形成和习得具有至关重要的作用。另外,边岛屿的提取过程还揭示了一些多字词的形成过程及其内部的层级结构。本研究从实证和定量的角度填补了汉语构词研究领域的某些空白,并有助于加深对于相关构词现象的认识。本研究的发现表明,汉语构词的相关特征与机制能够在较大程度上通过真实语境中的适宜统计特征体现出来。这些统计特征往往与相关的语言单位的相对频数联系密切。例如,字的同现字丰富程度是由字的同现字的相对频数分布决定的;字的当前构词能产性(尤其是基于词的丰富程度的指标)是由字构成的词的相对频数分布反映的;而二字词形成的机制则涉及到有序字对在其局部语境中的频数的相对大小。总之,汉语的词及相关的构词属性(例如,字的自由/粘着性、定位性和构词能产性)能够在较大程度上通过真实语境的简单统计特征得以体现并习得。
其他文献
对消毒泡腾片的配方组成,包括常用杀菌剂种类、崩解剂、填充剂、粘合剂、润滑剂等进行了介绍;对干法、湿法和直接压片法等用于泡腾片制备的3种工艺进行了分析,对黏冲、裂片、
马克思主义的人性观,一直以来是众多马克思主义研究者关注的焦点。塞耶斯也是其中之一。我们要想科学系统地认识肖恩·塞耶斯关于马克思主义人性观的解读,必须把文本研究和历
本文介绍了轧钢厂砹机架可逆冷轧轧机控制系统对卷径的测量和计算方法,该方法控制精度比较高,较好的满足系统控制的要求。
概述了类视黄醇化合物的代谢、对皮肤的主要功效,在配方中的稳定性、刺激性以及搭配注意事项等。介绍了相关市售产品,对类视黄醇化合物在化妆品中的应用前景进行了展望。
日前,爱默生过程管理公司宣布推出一款最新的Rosemount 3420现场总线接口模块(FIM)。该款FIM专为没有现场总线I/O接口的用户所设计,它能够借助任何主机系统安装FOUNDATION^TM现场
期刊
当前,高速公路系统运行维护及日常养护仍停留在纸质化、片面化的情况。这种情况与高速公路系统智能化发展方向严重不符。因此要采取措施提升高速公路运行维护管理水平,充分发
本文在分析语音识别原理的基础上,介绍了凌阳公司的16位单片机SPCE061A,并基于该款芯片丰富的语音处理功能,给出了用SPCE061A实现基于特定人语音识别系统的硬件结构及软件实现,该
本文主要介绍了某型钢烧结厂1#265烧结机和2#265烧结机两个独立主控室合并为一个综合主控室的改造方法,需要将1#265烧结机的4个PLC站及2#265烧结机的3个PLC站采集的所有控制及
中国加入WTO在即,中国的农产品贸易将逐步融入世界自由贸易体系中去。农产品的生产过程和环境是密切相关的,本文从理论上初步分析探讨了农产品贸易条件的变化对环境的影响,阐明
【正】辽宁省人民政府办公厅文件辽政办发[2009]3号各市人民政府,省政府各厅委、各直属机构:根据经济发展形势和城镇居民基本生活消费需求变化情况,省政府决定从2009年1月1日