论文部分内容阅读
计量语言学是以真实语料为基础、用精确的方法来研究语言结构与发展规律的语言学分支学科。近年来用于文本特征研究的计量语言学指标不断涌现,我们不仅可以使用这些指标来验证传统定性研究的某些结论,而且还可以借此发现其它研究方法难以发现或不能很好解释的文本特征规律。本文选取的是综合反映语言系统性特征的计量语言学指标,选用“汉英对比研究”语料库中代表性语体的文本特征,展开跨语体、跨语言的共时和语言类型学比较。研究语料库为兰卡斯特汉语语料库(LCMC)和弗瑞伯格-布朗美式英语语料库(Frown)。我们首先将文本特征进行量化,然后对文本特征的使用频率和分布频率等数据进行统计学处理,寻找这些语言现象背后的数理规律,并从语言学角度解读其成因,为语言研究提供思路。全文共分为六章。第一章为引言,首先对国内外有关文本特征的质性研究、量化研究、以及汉英对比研究的成果进行梳理,在此基础上提出本文的研究问题。第二章为语料和研究方法的介绍,包括LCMC和Frown两个语料库、重要的计量语言学指标(熵、h点和主题集中度)、计量工具等。第三、四、五章是结合具体的计量语言学指标进行的实证研究,分别对汉英不同语体在句法变化性、词汇丰富性、以及主题集中程度方面的差异进行比较。第六章为全文结论,总结论文的主要发现及不足,并指出未来的研究方向。第三章“基于‘熵’的汉英句法变化性及体标记差异考察”。熵是反映语言数学面貌的一个重要信息论参数,用以对语言的信息量进行量化描写。我们研究的“词位置相对熵”、“词性位置相对熵”和“体标记语言结构相对熵”这3个指标都具有一定揭示句法变化程度的意义。“词位置熵”和“词性位置熵”用于研究不同语体的句法差异,其最显著的特点是考虑了句中相继出现的词、词性之间的相互影响以及相互关联强度,这是其它研究方法都不太可能做到的。使用“词性位置相对熵”的均值作为衡量不同语体的句法灵活度可能更为可靠。统计检验表明:“词性位置相对熵”和“体标记语言结构相对熵”在汉英的不同语体之间存在差异,尤其是“叙述性Vs.说明性”语体之间差异显著。第四章“基于‘熵’的汉英不同语体词汇丰富性比较”。考察不同语体词汇丰富性的差异,实际是研究不同语体“词汇类型概率分布”存在的差异。本章把词汇丰富性放入和“词汇类型概率分布”具有关联的三个分布函数中进行考察:“型例比分布”、“型例比-熵分布”和“词汇频率概貌分布”。经研究,“型例比分布”和“型例比-熵分布”可以作为汉英不同语体的区别性参数。由于“型例比-熵分布”可以看成是洛伦兹曲线的一种,即“无标度网络洛伦兹曲线”,我们借鉴“无标度网络洛伦兹曲线”中的“?”(表示幂函数曲线的上凸程度)来比较不同语体“型例比”(TTR)的差异,是对不同语体词汇丰富性最直接地比较。词汇丰富性在汉英中皆表现为政府公文最低,小说最高,新闻间于两者之间。第五章“汉英不同语体‘主题集中度’的差异”。本章使用主题集中度(TC)、第二主题集中度(STC)和比例主题集中度(PTC)这三个指标,从语义层面上对政府公文、新闻和小说三种语体的差异进行量化比较。该方法有别于众多“内容分析”范式的一点在于:可以经由“主题词”来进一步精确量化整个文本主题集中的程度,从而为后续的统计假设检验奠定基础。我们将三种语体的三种主题集中度的数值作为特征向量,使用“围绕中心点聚类”(PAM)和“层次聚类”(HA)进行分析,发现这些特征向量大都能正确聚集到自己的语体簇。聚类结果较为理想的原因有二:第一,每一种主题集中度的数值在每一种语体中都呈现出“层级式”差异,且三种主题集中度的数值在三种语体之间也呈现出“层级式”差异;第二,三种语体“主题词”的数目和类型也存在差异。在汉英三种语体文本的h点和2h点区域中,名词占比从高到低排序皆为“政府公文>新闻>小说”,这种差异促成了政府公文、新闻和小说三种语体形成“主题密集-主题平衡-主题稀疏”的“三足鼎立”趋势,且这种格局具有跨语言的共性。