论文部分内容阅读
篇章分析旨在研究自然语言文本的内在结构并理解文本论述单元间的语义逻辑关系。在篇章分析领域,篇章是指由一组语义上连贯且结构上衔接的论元,经过结构化组织形成的自然语言文本。篇章关系分类研究作为篇章结构分析领域的一个重要研究子任务,旨在自动识别和判定同一篇章内毗连的两个论元之间的结构连接关系。宾州篇章树库(Penn Discourse TreeBank,简称PDTB)根据论元之间是否存在连接词,将篇章关系分成显式篇章关系和隐式篇章关系。前人研究已证明,显式篇章关系较易判定,实验性能已达93.09%;相对而言,隐式篇章关系由于缺少连接词(如“但是”,“因为”等)等直观推理线索,推理难度较大。本文针对隐式篇章关系分类任务中缺少显式关系分类线索的难点以及无法充分发挥多种分类方法优势的缺陷进行研究,论文的主要内容归纳为以下三个方面:基于外联关系的隐式篇章关系推理方法研究该研究的主要核心出发点是:两两“论元”之间的关系主要由其各自的“外联”成分触发。在此基础上,本文提出一种基于“外联”关系的隐式篇章关系推理方法。该方法继承“显式指导隐式”的关系推理模式,针对每个待测“论元对”,在大规模外部数据资源中挖掘与其内容近似的显式“参考对”,借助“参考对”的显式关系推理隐式关系。特别地,该方法侧重挖掘“论元对”中能够协同触发篇章关系的文字片段(即“外联”成分),以“外联”成分间的关系为参考,推理“论元对”整体的篇章关系。面向数据不平衡问题的隐式篇章关系样本集扩展方法研究由于受到篇章关系类别不平衡的影响,特定篇章关系类型的训练样本较为稀疏,导致分类模型训练不充分;相反,某些篇章关系类别的样本数量较为饱和,分类模型容易产生过拟合。针对上述问题,本文借助“论元”向量优化论元的表示形式,从外部数据资源中挖掘有效的篇章关系样本,对隐式训练样本集进行扩展,增加关系分类线索,解决分类任务中篇章关系类别分布不平衡以及人工标注的隐式训练样本数量有限这两个问题。在此基础上,抽取“论元”中有效的语言学特征,训练获得隐式篇章关系分类模型,检验训练样本扩展对单一分类性能以及整体分类性能的影响。基于Stacking组合学习的隐式篇章关系分类优化方法研究研究任务2)中通过对训练样本进行扩展实现隐式篇章关系分类,有效提升了分类器在各个篇章关系上的分类性能。但是,由于在分类模型学习过程中,使用不同的训练语料、分类算法和分类特征,单一学习器在各种篇章关系类别上表现出不同的分类适用性,隐式篇章关系的分类性能各有优势,截止到目前为止,这些单一学习器的分类优势尚未融合到同一模型下得以充分发挥。因此,本文尝试提出一种基于Stacking组合学习的关系分类优化方法,将隐式篇章关系分类任务分布在两个层次上,第一层学习器按照传统学习器的训练方式进行模型学习,然后第一层学习器的分类预测结果作为第二层学习器的输入,再次学习和预测,最终实现隐式篇章关系的分类。