基于关系线索挖掘与联合学习的隐式篇章关系分类方法研究

来源 :苏州大学 | 被引量 : 1次 | 上传用户:cczxokli
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
篇章分析旨在研究自然语言文本的内在结构并理解文本论述单元间的语义逻辑关系。在篇章分析领域,篇章是指由一组语义上连贯且结构上衔接的论元,经过结构化组织形成的自然语言文本。篇章关系分类研究作为篇章结构分析领域的一个重要研究子任务,旨在自动识别和判定同一篇章内毗连的两个论元之间的结构连接关系。宾州篇章树库(Penn Discourse TreeBank,简称PDTB)根据论元之间是否存在连接词,将篇章关系分成显式篇章关系和隐式篇章关系。前人研究已证明,显式篇章关系较易判定,实验性能已达93.09%;相对而言,隐式篇章关系由于缺少连接词(如“但是”,“因为”等)等直观推理线索,推理难度较大。本文针对隐式篇章关系分类任务中缺少显式关系分类线索的难点以及无法充分发挥多种分类方法优势的缺陷进行研究,论文的主要内容归纳为以下三个方面:基于外联关系的隐式篇章关系推理方法研究该研究的主要核心出发点是:两两“论元”之间的关系主要由其各自的“外联”成分触发。在此基础上,本文提出一种基于“外联”关系的隐式篇章关系推理方法。该方法继承“显式指导隐式”的关系推理模式,针对每个待测“论元对”,在大规模外部数据资源中挖掘与其内容近似的显式“参考对”,借助“参考对”的显式关系推理隐式关系。特别地,该方法侧重挖掘“论元对”中能够协同触发篇章关系的文字片段(即“外联”成分),以“外联”成分间的关系为参考,推理“论元对”整体的篇章关系。面向数据不平衡问题的隐式篇章关系样本集扩展方法研究由于受到篇章关系类别不平衡的影响,特定篇章关系类型的训练样本较为稀疏,导致分类模型训练不充分;相反,某些篇章关系类别的样本数量较为饱和,分类模型容易产生过拟合。针对上述问题,本文借助“论元”向量优化论元的表示形式,从外部数据资源中挖掘有效的篇章关系样本,对隐式训练样本集进行扩展,增加关系分类线索,解决分类任务中篇章关系类别分布不平衡以及人工标注的隐式训练样本数量有限这两个问题。在此基础上,抽取“论元”中有效的语言学特征,训练获得隐式篇章关系分类模型,检验训练样本扩展对单一分类性能以及整体分类性能的影响。基于Stacking组合学习的隐式篇章关系分类优化方法研究研究任务2)中通过对训练样本进行扩展实现隐式篇章关系分类,有效提升了分类器在各个篇章关系上的分类性能。但是,由于在分类模型学习过程中,使用不同的训练语料、分类算法和分类特征,单一学习器在各种篇章关系类别上表现出不同的分类适用性,隐式篇章关系的分类性能各有优势,截止到目前为止,这些单一学习器的分类优势尚未融合到同一模型下得以充分发挥。因此,本文尝试提出一种基于Stacking组合学习的关系分类优化方法,将隐式篇章关系分类任务分布在两个层次上,第一层学习器按照传统学习器的训练方式进行模型学习,然后第一层学习器的分类预测结果作为第二层学习器的输入,再次学习和预测,最终实现隐式篇章关系的分类。
其他文献
随着互联网资源的迅速增长和信息环境的日益复杂,追求高网络覆盖率的通用搜索引擎己无法满足用户更专业更精确的查询需求,因此,面向主题的搜索引擎应运而生。主题爬虫作为主题搜
现下于人们的日常生活中,基于地理位置信息的服务(LBS,Location-Based Services)是一种经常性被使用的应用服务,绝大多数以LBS为核心的实际应用都依赖于路径规划技术,以提供
Web Service是一种新的web应用程序,为应用程序之间的互操作提供了一种标准的方式。Web Service使不同平台和系统的客户端,能够调用由不同语言开发的服务功能。Web Service体系
试题库自动组卷问题是一个多目标优化问题。本文首先分析了试卷的评价指标以及各项指标的作用,建立了各评价指标约束构建的试卷模型;然后,针对自动组卷系统的自身特征,重点对
随着互联网的迅速发展以及移动智能终端的普及,越来越多的用户在以微博为代表的社交网络上表达自己的观点和情感,由此产生了大量富有情绪表达的文本信息。近年来,情感分析研
在1998年,网络信息检索领域有两种重要的网页排序模型被提出,它们分别是HITS(Hypertext Induced Topic Search)[5]和PageRank[11]。PageRank由于其固有的对恶意网页的抗干扰
虚拟机技术的出现,满足了人们不断增强的计算需求,确保了各种平台上的应用的正确性与可靠性。资源受限的智能卡领域,Sun公司为其开发平台制定了Java卡开放标准。支持Java卡标
在实际生产过程中时滞现象普遍存在,时滞现象的存在会严重影响系统的稳定性以及系统的性能。滑模变结构控制(SMVSC)的滑动模态对于匹配的参数不确定性以及外界扰动具有完全的
关联规则是数据挖掘研究领域中一项重要的研究课题。蚁群算法是受到蚂蚁觅食的集体行为启示而设计的智能算法,作为智能算法的重要分支受到研究人员的广泛关注,它具有鲁棒性、分
随着互联网技术的发展,P2P技术的应用越来越广泛,使用P2P可以帮助用户通过互联网直接进行交互,从而使得网络共享变得更加容易和简单。然而,由于P2P应用的不断演进,P2P也消耗了很大