基于图神经网络的隐式篇章关系识别方法研究

来源 :天津师范大学 | 被引量 : 0次 | 上传用户:lokimi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
篇章关系识别旨在判断同一篇章内两个语篇单元(论元)之间的语义连接关系,如比较关系、时序关系等,其有助于机器翻译、问答系统、阅读理解等自然语言处理领域中上层任务的性能提升。宾州篇章树库为研究篇章关系提供了权威的语言学资源支持,标注了五种类型的篇章实例,定义了三层的篇章关系体系,其根据是否存在连接词衔接两个论元,将篇章关系分为显式篇章关系和隐式篇章关系。由于连接词包含明显的语义信息,仅提取连接词的特征便可使显式篇章关系识别的准确率达到90%以上。然而,隐式篇章关系识别任务缺少明显的语义特征,要求自然语言处理算法充分理解文本语义并推理论元之间的语义联系。由于现有方法在篇章论元的深层表示和论元间交互特征的挖掘中存在不足,目前识别的准确率远远达不到可用的程度。为了学习适用于篇章关系识别的论元表示,更好地融合论元自身和交互语义特征,本文提出了基于图神经网络的隐式篇章关系识别方法。具体工作内容可分为以下两点:(1)基于图卷积网络的隐式篇章关系识别方法篇章论元表征及论元之间交互关联线索挖掘是隐式篇章关系识别的关键问题,而现有研究在学习论元的分布式表示中存在训练数据不足、语义歧义、缺乏上下文信息等问题,在挖掘论元交互模式中存在计算粒度较大、难以区分关键词对等问题。针对上述问题,本文基于论元对的依存句法结构建立静态图,将论元的交互模式蕴含在图结构中,将论元表征融入在图节点的嵌入表示中,采用图卷积网络进行图表示学习,进而得到论元对表示。具体来讲,首先构建篇章论元对的依存句法树,从中提取词与词之间的依存关系,并基于依存关系构建包含句法信息的静态图。这样可以缩短一些关键词对的距离,有助于后续网络挖掘图中的语义信息。然后,利用预训练的BERT模型获取上下文相关的论元表示,并作为静态图的节点特征,从而将语言模型在海量语料上的预训练结果传递给本文任务,在一定程度上解决训练样本不足以及多义词的问题。最后,采用图卷积网络依据静态图中的依存关系和节点特征进行图表示学习,从而得到融合了论元句法信息和语义信息的论元对表示,有利于隐式篇章关系的推理。在PDTB 2.0数据集上的实验结果表明本文模型与一些先进模型具有可比性。(2)基于图注意力网络的隐式篇章关系识别方法基于依存关系构建的静态图存在语义信息单一,依赖解析错误难以纠正,无法有效与图表示学习进行联合优化等问题。已有研究者使用自注意力机制和双线性模型学习动态的图结构,使得图结构学习和图表示学习可以进行端到端的联合优化,但是其忽略了论元交互模式的稀疏特性。针对这些问题,本文使用注意力机制挖掘论元的自身语义信息和交互语义信息,并将其蕴含在动态图结构中,然后使用图注意力网络进行图表示学习。具体来讲,首先基于Prob Sparse Self-Attention机制学习动态的图结构,并在此过程中完成论元交互信息的稀疏化处理。然后利用图注意力网络进行篇章论元的图表示学习,通过修改注意力分数的计算方式使其可以利用边上丰富的语义信息。图构建与图表示可以进行联合学习,在迭代中不断优化图结构,学习更好的图表示。本文在PDTB 2.0数据集上进行实验,四分类的宏平均F1值可达到65.28%,准确率可达到71.54%,优于目前的先进模型。我们首次研究了不同的注意力机制对篇章论元对长度的敏感度,实验结果表明,Prob Sparse Self-Attention机制可以提升模型对较长论元对的分类性能。综上所述,本文将篇章论元的原始文本序列转换为图结构数据,将论元的自身语义特征及其交互模式融入在图结构中,将论元表征融入在图节点嵌入中,提出了两个基于图神经网络的隐式篇章关系识别方法。本文研究在一定程度上为篇章分析的相关研究提供了重要的参考,在理论研究和实际应用等方面具有相应的价值。
其他文献
染色问题中最常见的问题是着色问题,而染色问题又不仅仅是着色问题,并不是要求如何染色的问题才是染色问题,它指的是一种解题方法.染色方法是一种将题目研究对象分类的形象化方法,通过将问题中的对象适当染色,我们可以更形象地观察分析出其中所蕴含的关系,再经过一定的逻辑推理,便能得出问题的答案.本论文第一章结合文献介绍了竞赛数学中组合问题以及染色问题的研究背景、意义和现状.第二章介绍了本论文涉及到的同余、均值
学位
在对李代数的深入研究中,李代数的理想、子代数、极大理想的性质与其自身的结构存在着密切的关系.本文将着重研究复数域C上的两种李代数,即具有有限多个维数大于1的子代数的李代数以及具有有限多个极大真理想的李代数.第一章简单介绍了李代数的研究背景及现状,并且阐述了本论文的主要工作.第二章主要介绍了文章中所涉及的定义及常用结论.第三章首先证明了复数域C上的半单李代数不具有有限多个维数大于1的子代数,其次得出
学位
自20世纪90年代起,访谈节目在我国的发展已将近30年。为适应时代发展、迎合受众喜好,访谈节目一直处在不断变化和转型的过程中。人物选择、场景设置、访谈内容等都在因时、因势而变。近年来,媒介融合和互联网发展愈加深入,各类形态丰富的综艺节目层出不穷,其节目内容活泼、形式新颖,给访谈节目造成很大冲击。在此背景下,访谈节目开始顺应时代发展趋势开启新一轮的变革,以《鲁豫有约一日行》《十三邀》《奇遇人生》等为
学位
在人类社会中个体如何能够证明自己存在过、生活过,记忆就是一个最好的证据。无论是自己脑海中留存的关于这个时代的以及和他人相处的记忆,还是他人保留着的关于你的记忆,可以说它们都是证明你在这个世界上生活过的印迹。这种记忆在人活着的时候可能并不能完全凸显出它的价值,但是当人们在面对死亡时,这份记忆就弥足珍贵。人们通过举办各种哀悼仪式、纪念活动等等,年复一年的提醒着自己同时也向大众宣告他们没有忘记。作为人类
学位
在国内外数学竞赛中,最值问题是比较常见的一种类型.最值问题经常与竞赛数学的四个部分组合、代数、数论、几何结合在一起.本文通过分析近几年国内外数学竞赛中的组合最值问题,归纳出解决组合最值问题的常用方法,并对一些有价值的问题进行推广,得到一般性的结论.本文的创新之处为第四章给出的12个命题.第四章对不同的组合最值问题进行了不同角度的推广并得出新的结论.对一些一般化之后的命题需要用新的方法解决.本文主要
学位
在李代数的研究中,可解李代数的表示分类是极为困难的问题,本篇论文利用群在集合上作用的轨道分类,计算gl(n,F)(2≤n≤5)的二维非交换子代数在内自同构意义下的分类,最终得到二维非交换李代数低维表示的分类.主要包括:第一章介绍了李代数表示的研究现状,并且简单介绍了本文的主要工作.第二章介绍了文章中所涉及的定义及相关引理.第三章给出了二维非交换李代数的二维表示及三维表示的分类,并分别给出了其可分解
学位
在现代生产条件无所不在的社会,生活本身展现为景观的庞大堆聚。景观是以影像为中介的人们之间的社会关系,它通过支配生产之外的大部分时间来达到对现代人的全面控制。在当下,电子游戏成为人们在非劳动时间进行的一项主要的休闲娱乐活动,生产了大量的女性身体景观,并成为景观性演出的一个重要场所。本文旨在对电子游戏这一场所中的女性身体景观的建构过程进行分析。第一章对电子游戏的结构进行分析。电子游戏作为景观的生产和演
学位
一个地区的区域形象对该区域的综合发展至关重要,因此研究河南媒介形象具有重大意义。河南媒介形象是指在媒介报道中河南作为被报道对象所呈现出的区域媒介形象,它是外界对河南认知的反映,也是外界认识河南的重要途径。自上世纪末开始,河南形象问题一直受到媒体和大众的广泛关注,且由于多个原因,河南形象多以负面形象出现,这严重影响了河南省社会经济的发展和文化软实力的提升。所幸经过以政府为主体的全省人民的不断努力,河
学位
近年来,随着量子力学应用研究的迅速发展,人们已经能够通过量子模拟手段即利用人工可调控的量子系统去模拟待研究的量子系统,探究当前实验条件下难以观测和计算的物理现象,例如用光晶格与耦合腔阵列等系统来模拟传统凝聚态物理中的强关联系统,最终在这些可控系统中达到制备、传输和控制量子态的目的。在制备、传输和控制量子态的过程中,人们对于厄米体系中粒子在化学势作用下的动力学行为已经完成了基本的运算和分析。然而,当
学位
碳化硅多孔陶瓷材料具有导热系数低、密度低、比强度高、抗热震性高、化学稳定性好、流体渗透性高、耐腐蚀性好等独特性能,故将其作为高温过滤除尘系统中的主要材料。为克服陶瓷材料固有的脆性,力求提高陶瓷材料的力学性能与气孔率。本研究的第一部分从碳化硅多孔陶瓷微观结构、抗弯强度及过滤性能的一些影响因素出发,以碳化硅颗粒为主要原料,先探究了最佳的烧结温度以及粘结剂含量,接下来向粘结剂中掺杂碳酸钾,得到碳酸钾的最
学位