论文部分内容阅读
通过综述国外研究者在英语语篇结构标注方面的成就,本篇论文为汉语语篇结构标注理论与实践作了系统的研究。英语语篇结构标注研究表明,语篇结构标注的前提是确立语篇结构理论,该理论既要体现于语法又要体现于语义。只有在语法上能实现,才能确保组成语篇的单位的相对稳定性;在语义上能实现,才能保证语篇单位之间存在相互连接的关系。根据Halliday的思想,语法体现于句内,语义体现于句与句之间,以句为单位恰好可以实现语法与语义的接口,因此,本文首先确立汉语语篇的基本单位为单句或在语篇中发挥单句功能的短语结构。确立了单句为基本语篇单位,论文集中描述了单句的语法知识表达和语义知识表达,为创建语篇概念结构理论奠定基础。针对汉语句子组织机制的研究已有大量的成果,本文采纳詹卫东(2000)的研究成果,单句的内部组织结构有三种,即主谓式、状中式和联合式,其中以主谓式最为常见复杂。主谓式单句可以分为四大类若干小类,基本上覆盖了自然语篇中所有的单句形式。在描写单句的语义知识表达时,本研究没有沿袭传统的句法树的表达框架,而将语义表达建立于概念层次网络理论。就单句语义描写来讲,概念层次网络理论是较为全面的、完善的,但在描写单句与单句之间的语义关系时,该理论的解释力较弱。为此,本文提出以修辞结构理论作补充,指出语篇语义体现于语篇单位之间的主辅关系和各类修辞关系。依据句法知识和语义知识描写,本文提出了语篇概念结构理论。在语篇概念结构理论指导之下,本文制定了汉语语篇结构标注规范:·可扩展的标记集。该标记集不但能反映单句内的语法关系,而且能反映单句与单句之间的语义关系。·汉语语篇切分总则和具体细则。鉴于汉语语篇中标点符号,特别是逗号的作用,本文提出以逗号为基本语篇单位的切分点的总则。对于逗号的一些特殊用法,以及其他标点符号的用法,本文制定了一系列的切分细则。·标注规范。文中所制定的标注规范涉及到三个方面,即标注记号的呈现形式、标注总则、语篇结构关系标注细则。本文提出用圆括号作分隔符号,标记排列顺序是首先注出整个标注语篇所涉及到的范围,然后依次从大到小分解;既突出开始点,又标出终结点;既要标出相应语篇单位之间的主辅关系,又要标出它们之间的修辞关系;对每个基本语篇单位都要标出它的句法机制和句类。标注细则都是针对语篇单位之间主辅以及修辞关系的确定。·绘制语篇结构树的规则。通过介绍英语语篇结构树的绘制方法和标准,本篇论文提出了建立汉语语篇结构树的绘制方法和原则。确立语篇结构标注理论支撑,制定语篇结构标注规范,最终目的是要建立语篇结构标注语料库。然而,大规模语篇的标注必须是人机结合,因此,开发相应的语篇分析工具势在必行。本文在介绍RSTTool的基础之上,提出了一系列的构想,改进该语篇分析工具为汉语语篇分析所用,例如,增强对汉语文本的接纳性、改进切分界面、增强软件对汉语语篇单位之间主辅关系的识别等。借助于语篇结构标注语料库,研究者可以开辟很多新的研究领域,如自动篇章标注算法、自动文摘、机器翻译等具体应用工程方面的研究。本文着重介绍国外研究者如何以语篇结构为基础创建自动文摘生成系统,旨在给国内相关的研究者以启发。