论文部分内容阅读
因果关系是自然语言文本中的一种重要的关系类型,在关系推理等许多领域中起着至关重要的作用,因此对因果关系进行抽取是文本挖掘中的一项基本任务。但目前因果关系抽取仍是一个新兴领域,并无成熟的研究体系与公开测评的数据集,现有成果均自有一套研究体系无法横向比较,是阻碍因果关系抽取取得进步的关键因素之一。此外,现有相关概念、研究方法、实验数据以及标注方法等内容均分散在各个研究中并没有系统的总结,使研究者无法获取该领域的全貌从而进行深入研究。本文针对这些方面进行全方位总结与多角度创新,提出一套新的因果关系抽取研究体系,为后续相关研究作为参考。现有主流方法多采用文本分类、关系抽取、序列标注这三种方法探究文本中的因果关系,本文着重采用序列标注的方法抽取文本中的因果实体并确定因果关系方向,不需要依赖特征工程或因果背景知识,并对其他两种方法进行补充探究。本文的主要贡献有:(1)基础概念上,本文系统总结了分散在各个研究中的相关概念与因果关系种类;(2)研究方法方面,本文总结出三大研究领域,并且全方位归纳了其他研究方法,使读者了解该领域的全貌;(3)算法模型上,我们拓展句法依存树到句法依存图,将图注意力网络应用到自然语言处理中,引入了S-GAT(基于句法依存图的图注意力网络)的概念。结合深度学习模型与SGAT提出Bi-LSTM+CRF+S-GAT因果抽取模型,根据输入的句子词向量生成每个单词的因果标签;(4)实验数据方面,本文全方位总结现有因果关系抽取相关数据集,多角度探究其实用性与拓展性。对SemEval数据集进行修正与拓展,针对其存在的缺陷制定规则重新标注,创建新的因果关系抽取数据集ESC;(5)标注方法方面,我们归纳现有因果序列标注方法并进行多角度分析,总结因果序列标注准则,提出“因果核心词”的标注方法。针对标注争议设定多种候选因果标签序列,构建E-SCIFI因果标注方法数据集,通过实验探究最优的因果标注方法。实验结果表明,我们提出的“因果核心词”标注方法在实验效果上表现最优;(6)在ESC数据集上进行了大量的实验,结果表明,我们的模型在预测准确率上比现有最优模型Bi-LSTM+CRF+self-ATT提高了6.4%,并根据其它两种因果关系抽取方法拓展本文模型,在altlex与SemEval数据集上进行补充实验,全方位探究因果关系与本文提出模型的拓展性。