论文部分内容阅读
篇章指由一系列连续的子句、句子或语段构成的语言整体单位,每个篇章不仅具有内部连贯性,而且篇章中的各级语言单位是描述同一问题或同一种情境的相对完整的语言整体。在一个篇章中,子句、句子或语段间具有一定的层次结构和语义关系,篇章结构分析旨在分析出这种结构关系。篇章结构分析结果对于提高自动文摘、知识抽取、自动问答等相关系统的性能均有重要作用。随着词法、句法分析技术的成熟,篇章结构分析成为制约自然语言处理的关键基础问题。目前篇章结构分析研究主要面向英语,面向汉语的研究相对落后。主要表现在:1)适用于汉语的篇章结构分析理论还不完善;2)符合汉语特点的大规模汉语篇章结构语料资源匮乏;3)由于汉英语言上的差异性,适用于英语的篇章结构分析方法不能直接应用在汉语篇章结构分析研究中。本文重点研究了汉语篇章结构的理论表示体系。借鉴英语修辞结构理论和宾州篇章树库体系的优点,参考汉语复句和句群的研究成果,结合汉语本身特点,本文提出一种基于连接依存树的汉语篇章结构表示体系,并根据汉语特点定义了其中的关键元素:子句(基本篇章单位)、连接词、篇章结构关系、篇章单位主次。连接依存树的主要特征是叶子节点为子句,内部节点为连接词,连接词通过其层级地位(管辖范围)表示篇章结构层次,通过其语义(具体与抽象)表示篇章关系,连接词所连接的篇章单位根据篇章整体意图区分主次。与修辞结构理论、宾州篇章树库体系的理论对比表明,本文所提基于连接依存树的汉语篇章结构表示体系在理论上具有一定的优越性,并且符合汉语特点。基于连接依存树的汉语篇章结构表示体系是进一步开展篇章结构语料库构建的理论基础。在此基础上,进行了汉语篇章结构语料库的构建研究。基于连接依存树表示体系,本文采用自顶向下的标注策略和人机结合的语料库标注方式,构建了汉语篇章结构语料库(Chinese Discourse Treebank,CDTB)。CDTB目前包含来自Chinese Treebank的500个文档,本文对其进行分析并展示了语料库的标注情况。标注一致性测试表明CDTB标注质量较好,统计数据表明所标CDTB达到一定规模。CDTB可以为汉语篇章结构分析研究提供资源支持。最后,本文实现了基于连接依存树的汉语篇章结构分析平台。该平台包括子句识别、篇章结构树构建、篇章关系识别、篇章单位主次识别任务,实验结果验证了本文所提基于连接依存树的汉语篇章结构表示体系的合理性,以及所标CDTB语料库的可用性。目前,汉语篇章结构分析研究尚处于起步阶段,本文研究亦属探索性工作,上述工作在理论研究、资源建设、计算分析上对汉语篇章结构分析研究均有不同程度的创新,对该领域的相关研究具有重要参考价值。