论文部分内容阅读
篇章的连贯性通常是由篇章内部结构和上下文表述的语义关系所决定的。篇章是指一系列连续子句、句子或句群构成的语言单位;篇章关系是指在同一篇章中,不同篇章单位之间的语义逻辑关系(如并列、因果关系等)。篇章连接词通常用来显式地表达篇章单位间承接的语义关系,根据篇章单位之间是否存在显式篇章连接词(如“因为”、“但是”等),可将篇章关系分为显式关系和隐式关系。本文主要针对中英文语料中显式篇章关系展开研究,主要工作包括:(1)分别构建中英文连接词分析平台,包括连接词识别和语义关系分类。使用最大熵模型和条件随机场模型在中文篇章树库(Chinese Discourse Treebank,CDTB)和英文篇章树库(Penn Discourse Treebank,PDTB)上分别构建连接词分析平台。连接词识别在中文上的性能F1值最高为66.79%,英文上F1值最高为95.72%;在语义关系分类中,分别在完全正确的连接词和自动识别出来的连接词上进行实验,自动识别出来的连接词的基础上中文最顶层的四大类语义分类的总体性能为57.58%,英文最顶层的四大类语义分类总体性能达到了90.14%。(2)本文参考CDTB标注体系标注了双语平行语料中的英文部分。借助机器翻译中的句子、词对齐工具,结合少量人工标注,构建了双语平行篇章语料。主要标注了连接词、关系类型(显式/隐式)、语义关系等内容,并在标注的双语平行篇章语料上对中英文显式、隐式篇章关系的分布、转换,以及关系类型进行了对比研究。(3)为了进一步提升中文连接词分析的性能,本文基于双语平行篇章语料,对中文连接词进行进一步的分析。主要思想是利用中文连接词在英文语料中的对齐信息,构建基于双语协作的连接词分析平台。实验结果显示,该方法使得连接词识别性能上升了1.7%。