论文部分内容阅读
众所周知,在很长的一段时间内,语言学家们从不同的角度对短语序列、互文性和连贯性进行了探讨。但是,在之前的研究中,互文性短语序列和连贯性之间的关系很少得到明确的解释。今天,自然语言处理技术使我们能够获取文本中存储的复杂信息,为短语序列、互文性和连贯性的研究带来了一个新的实验的视角。
本文尝试在学术研究论文的分析中整合短语序列、互文性和连贯性这三者之间的研究。本研究使用自编语料库,结合最近开发的python自然语言处理技术,考察在具有语篇流性质的语料库中,如何通过高频短语序列,尤其是互文性短语序列,来分析语篇的连贯性。
本研究中的短语序列的提取过程是半自动化的,它包括两个阶段:语料库中短语序列的识别和互文性短语序列的识别。
像许多其他语言学术语一样,短语序列的定义是模糊的,相似的术语有formulaicexpression,fixedexpression,frozenexpression,fixedphrase,setexpression,phrasallexeme,phraseme,phraseolexeme,phraseologism等等。本研究中采用的定义是由格里斯2008年在他的论文PhraseologyandLinguisticTheory中提出的。
马丁·沃伦在2009年他的文章里认为语篇流就是一系列有相互关联的语篇。本研究所采用的语篇流是来自于1980年至2019年的语言学期刊AnnualReviewofAppliedLinguistic中的学术研究论文。
本文将讨论以下两个问题:(1)学术研究论文中高频的短语序列是哪些?它们对学术研究论文的语篇连贯性有什么作用?(2)学术研究论文中最常见的互文性短语单位是哪些?
作者发现,学术研究论文中的短语序列可以按照其在建立连贯性中的作用划分类别。此外,通过定位这些短语序列,可以轻松地实现对学术研究论文的全局连贯性或局部连贯性的分析。
本文尝试在学术研究论文的分析中整合短语序列、互文性和连贯性这三者之间的研究。本研究使用自编语料库,结合最近开发的python自然语言处理技术,考察在具有语篇流性质的语料库中,如何通过高频短语序列,尤其是互文性短语序列,来分析语篇的连贯性。
本研究中的短语序列的提取过程是半自动化的,它包括两个阶段:语料库中短语序列的识别和互文性短语序列的识别。
像许多其他语言学术语一样,短语序列的定义是模糊的,相似的术语有formulaicexpression,fixedexpression,frozenexpression,fixedphrase,setexpression,phrasallexeme,phraseme,phraseolexeme,phraseologism等等。本研究中采用的定义是由格里斯2008年在他的论文PhraseologyandLinguisticTheory中提出的。
马丁·沃伦在2009年他的文章里认为语篇流就是一系列有相互关联的语篇。本研究所采用的语篇流是来自于1980年至2019年的语言学期刊AnnualReviewofAppliedLinguistic中的学术研究论文。
本文将讨论以下两个问题:(1)学术研究论文中高频的短语序列是哪些?它们对学术研究论文的语篇连贯性有什么作用?(2)学术研究论文中最常见的互文性短语单位是哪些?
作者发现,学术研究论文中的短语序列可以按照其在建立连贯性中的作用划分类别。此外,通过定位这些短语序列,可以轻松地实现对学术研究论文的全局连贯性或局部连贯性的分析。