论文部分内容阅读
依存语法认为,句子中词与词之间是二元、非对称且有标记的依存关系。依存距离是依存语法研究领域的一个重要概念,指的是句中两个有句法关系的词之间的线性距离。大量研究表明,平均依存距离(MDD)这一指标可测量句子线性维度上的句法特征。此外,句子结构的层级性也是人类语言的重要特征,但前人的研究并没有将依存距离拓展到层级维度上。因此,本文基于MDD的研究,构建了层级结构计量指标,平均垂直依存距离(MHDD),用于探究句子层级维度上的句法特征。
本文基于上述两个指标,以Frown美语语料库中的12种文本类型为研究语料,采用定量方法从线性维度和层级维度研究英语不同语体的句法特征,旨在探究不同类型文本特征的差异以及句法线性维度和层级维度的关系。为更准确描述各语体中这两个指标随句长变化的关系,我们从每种文本中随机抽取360个句子,句长范围为5至40词,每种句长各10句。整个研究树库共计4320句,97200词。我们首先使用StanfordParser对所有句子进行自动标注,之后再依据布拉格依存树库标注方案进行人工检查。本文主要研究三个问题:(1)12个语体MDD和MHDD呈现何种分布?(2)12个语体MDD和MHDD之间为何种关系?(3)依存关系基于MDD和MHDD的分布是否可区分不同的文本类型?
研究发现:(1)12个语体MDD和MHDD的分布形成了一个一定范围内波动的连续统。MHDD可作为衡量句子层级维度上句法特征的计量指标。但这两个指标都无法区别文本特征的差异,除了处在该连续统两端句法复杂度最难和最简单的语体。(2)12个语体MDD和MHDD之间存在显著正相关关系,且均符合具有不同幂指数的幂函数关系。语体MHDD随MDD的增长呈现出“说明文vs.记叙文”的区别。12个语体MDD和MHDD之间的显著正相关关系原因有二,一是这两个指标的分子和分母有部分数据是随句长所产生的重合;二是MDD和MHDD中大部分数据点均处在低值范围内。(3)Kruskal-Wallis检验表明,MDD与MHDD不可以区分12个语体的句法特征,但可区分4个宏观语域的句法特征。4个宏观语域核心依存关系在两个维度上的分布表明,从说明文渐变为记叙文的这个连续统中,学术语体较多使用名词短语嵌套在主语和宾语位置上,名词性风格突出,信息更加密集,倾向于采用扁平型层级结构,句法复杂度更难。相较而言,通用语体不如学术语体名词性风格浓烈,其表示修饰语的依存关系分布在更高层级。与学术语体较多使用名词修饰语相反,新闻语体更倾向于使用从句来传达信息。小说语体处在该连续统的最末端,其处在较高层级及依存距离较大的核心依存关系占比都有明显下降的趋势。无论是什么语体,大部分句子的依存距离与最大层级数都在一定范围内波动。
本文验证了MHDD用于测量层级维度句法特征的可行性,系统地研究了不同文本类型在相关线性及层级维度上的句法特征。核心依存关系在线性和层级维度上产生的差异通过MHDD和MDD的量化呈现,有助于我们看到4种宏观语域产生渐变的原因。希望本文的研究方法和研究发现能对文本特征或语言的定量研究提供一定启示。
本文基于上述两个指标,以Frown美语语料库中的12种文本类型为研究语料,采用定量方法从线性维度和层级维度研究英语不同语体的句法特征,旨在探究不同类型文本特征的差异以及句法线性维度和层级维度的关系。为更准确描述各语体中这两个指标随句长变化的关系,我们从每种文本中随机抽取360个句子,句长范围为5至40词,每种句长各10句。整个研究树库共计4320句,97200词。我们首先使用StanfordParser对所有句子进行自动标注,之后再依据布拉格依存树库标注方案进行人工检查。本文主要研究三个问题:(1)12个语体MDD和MHDD呈现何种分布?(2)12个语体MDD和MHDD之间为何种关系?(3)依存关系基于MDD和MHDD的分布是否可区分不同的文本类型?
研究发现:(1)12个语体MDD和MHDD的分布形成了一个一定范围内波动的连续统。MHDD可作为衡量句子层级维度上句法特征的计量指标。但这两个指标都无法区别文本特征的差异,除了处在该连续统两端句法复杂度最难和最简单的语体。(2)12个语体MDD和MHDD之间存在显著正相关关系,且均符合具有不同幂指数的幂函数关系。语体MHDD随MDD的增长呈现出“说明文vs.记叙文”的区别。12个语体MDD和MHDD之间的显著正相关关系原因有二,一是这两个指标的分子和分母有部分数据是随句长所产生的重合;二是MDD和MHDD中大部分数据点均处在低值范围内。(3)Kruskal-Wallis检验表明,MDD与MHDD不可以区分12个语体的句法特征,但可区分4个宏观语域的句法特征。4个宏观语域核心依存关系在两个维度上的分布表明,从说明文渐变为记叙文的这个连续统中,学术语体较多使用名词短语嵌套在主语和宾语位置上,名词性风格突出,信息更加密集,倾向于采用扁平型层级结构,句法复杂度更难。相较而言,通用语体不如学术语体名词性风格浓烈,其表示修饰语的依存关系分布在更高层级。与学术语体较多使用名词修饰语相反,新闻语体更倾向于使用从句来传达信息。小说语体处在该连续统的最末端,其处在较高层级及依存距离较大的核心依存关系占比都有明显下降的趋势。无论是什么语体,大部分句子的依存距离与最大层级数都在一定范围内波动。
本文验证了MHDD用于测量层级维度句法特征的可行性,系统地研究了不同文本类型在相关线性及层级维度上的句法特征。核心依存关系在线性和层级维度上产生的差异通过MHDD和MDD的量化呈现,有助于我们看到4种宏观语域产生渐变的原因。希望本文的研究方法和研究发现能对文本特征或语言的定量研究提供一定启示。