论文部分内容阅读
篇章结构分析是自然语言处理领域中的一个重要研究课题。篇章是由连续的话段或句子构成的语言整体,表达一个完整的语义信息。其特点是前后衔接、语义连贯,且具有一定的交际目的和功能。无论在形式上还是意义上,篇章都不是孤立存在的,而是每一个篇章单元各自承担一定的角色,相互作用,并通过篇章关系关联在一起,共同构成完整的篇章结构,表达特定的篇章语义和意图。篇章结构分析不仅有助于理解篇章结构和语义,而且可以为自然语言处理的应用,如问答系统、机器翻译、文本摘要等提供有力的支撑。
篇章结构的研究分析可分为微观和宏观两个层面。在微观层面,篇章结构指的是子句与子句、句子与句子、句群与句群之间的结构与关系;在宏观层面,篇章结构指的是段落与段落、章节与章节、篇章与篇章之间的结构与关系。目前的篇章结构分析主要集中在微观层面,而宏观层面的分析与研究不够充分。主要存在的问题是,宏观篇章结构的理论描述较为抽象,难以转换为可计算的模型,并且尚未有相应的语料资源和计算模型。因此本文以宏观篇章结构为研究对象,重点研究了宏观篇章结构的表示体系、资源建设和计算模型。主要研究内容如下:
1.本文提出了以主次关系为媒介的宏观和微观统一的篇章结构框架,并针对宏观篇章结构分别构建了逻辑语义结构和功能语用结构。在这个表示体系中,每个篇章都被表示为多层的篇章结构树,篇章单元与篇章单元之间通过篇章关系联系起来,并利用箭头的方向表示各级篇章结构间的主要和次要关系。
2.以宏观篇章结构表示体系为依据,本文开展了宏观汉语篇章结构语料资源的标注工作,称之为宏观汉语篇章树库(Macro Chinese Discourse Treebank,MCDTB)。在标注过程中,本文迭代地修改了表示体系的定义和语料标注准则。经过近一年的时间,共完成了720篇新闻语料的标注。
3.在表示体系和语料资源的基础上,本文重点研究了宏观篇章结构分析的两个子任务,篇章结构检测和主次关系判别。为了减少相关任务之间的错误传递,采用两个任务之间的联合模型,并提出了一种基于整数线性规划的优化方法,以实现给定约束条件下的全局优化。最后,本文实现了一个端到端的宏观篇章结构分析器。该篇章结构分析器采用线性链条件随机场和支持向量机分别作为篇章结构检测和篇章关系识别的基础分类器,自底向上地进行篇章结构树的构建,最终生成完整的篇章结构树。
目前,宏观篇章结构分析还处于起步阶段,本文的研究是探索性工作,在宏观篇章结构表示体系、语料资源和计算模型上均有不同程度的创新,对该领域的相关研究具有重要的参考价值。
篇章结构的研究分析可分为微观和宏观两个层面。在微观层面,篇章结构指的是子句与子句、句子与句子、句群与句群之间的结构与关系;在宏观层面,篇章结构指的是段落与段落、章节与章节、篇章与篇章之间的结构与关系。目前的篇章结构分析主要集中在微观层面,而宏观层面的分析与研究不够充分。主要存在的问题是,宏观篇章结构的理论描述较为抽象,难以转换为可计算的模型,并且尚未有相应的语料资源和计算模型。因此本文以宏观篇章结构为研究对象,重点研究了宏观篇章结构的表示体系、资源建设和计算模型。主要研究内容如下:
1.本文提出了以主次关系为媒介的宏观和微观统一的篇章结构框架,并针对宏观篇章结构分别构建了逻辑语义结构和功能语用结构。在这个表示体系中,每个篇章都被表示为多层的篇章结构树,篇章单元与篇章单元之间通过篇章关系联系起来,并利用箭头的方向表示各级篇章结构间的主要和次要关系。
2.以宏观篇章结构表示体系为依据,本文开展了宏观汉语篇章结构语料资源的标注工作,称之为宏观汉语篇章树库(Macro Chinese Discourse Treebank,MCDTB)。在标注过程中,本文迭代地修改了表示体系的定义和语料标注准则。经过近一年的时间,共完成了720篇新闻语料的标注。
3.在表示体系和语料资源的基础上,本文重点研究了宏观篇章结构分析的两个子任务,篇章结构检测和主次关系判别。为了减少相关任务之间的错误传递,采用两个任务之间的联合模型,并提出了一种基于整数线性规划的优化方法,以实现给定约束条件下的全局优化。最后,本文实现了一个端到端的宏观篇章结构分析器。该篇章结构分析器采用线性链条件随机场和支持向量机分别作为篇章结构检测和篇章关系识别的基础分类器,自底向上地进行篇章结构树的构建,最终生成完整的篇章结构树。
目前,宏观篇章结构分析还处于起步阶段,本文的研究是探索性工作,在宏观篇章结构表示体系、语料资源和计算模型上均有不同程度的创新,对该领域的相关研究具有重要的参考价值。