融合降噪门的图注意力网络实体关系抽取模型

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:suuuper4w
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实体关系抽取在自然语言处理中扮演着至关重要的角色,旨在从纯文本中挖掘出实体对之间潜在的语义关系,并在知识库构建和问答系统等任务中有着广泛应用。作为该领域的研究热点,基于远程监督的关系抽取结合知识库中的关系实例作为辅助信息,通过与非结构化文本对齐的方式自动标注数据。远程监督方法虽然能够有效缓解训练语料不足的问题,但同时也因错误标注而引入了数据噪声。现有工作大多采用多示例学习的方式,将提及同一实体对的所有语句视为一个包,并利用注意力机制筛选出包内重要的语句,从而降低数据噪声对关系抽取的影响。然而,当包内数据过于稀疏时(例如,NYT数据集中80%的包只有一条句子),注意力机制便难以发挥功效。此外,目前基于依存句法树的方法虽然能够有效捕捉单词间的长距离依赖,但忽略了不同单词对于表达实体关系的重要性差异,无法选择性关注依存树中与关系抽取最为相关的句法结构,导致模型难以准确、有效地抽取实体间的语义关系。针对以上不足,本文提出了融合降噪门的图注意力网络(Graph Attention Network with Denoising Gate,GAT_DGATE)实体关系抽取模型。具体而言,该模型使用图注意力网络将依存树转换为加权有向图,并通过节点相关度筛选出对关系表达更为关键的子结构,有效消除句子中冗余信息的干扰,从而更准确地表达实体间的语义关系。其次,本文还提出了一种新颖的降噪门机制,根据包内各个句子与标注的相似度计算门控值,把对注意力的归一化操作改进为对门控值的均值池化操作,避免了包内只有一个句子时注意力机制难以生效的情况,进一步增强了模型的鲁棒性。此外,出于对远程监督生成的负例数据通常远多于正例数据这一客观事实的考虑,本文还结合单边梯度采样法以解决样本类别不均衡的问题。本文基于远程监督实体关系抽取任务中广泛应用的NYT数据集,设计并进行对比实验。实验结果表明,相较于业界主流的方法,本文提出的GAT_DGATE模型在PR曲线与AUC值、Precision@N等评估指标上表现更佳,验证了该算法的有效性。此外,本文还通过可视化分析和案例分析对图注意力网络和降噪门的功效进行定性评估,分析结果表明本文方法具备良好的可解释性。
其他文献
本课题针对激光熔覆制备高熵合金涂层理论研究不足的特点,探索了激光熔覆工艺制备高熵合金涂层物相(固溶体相)形成的元素选择判据(δ,△Hmix,△Smix)和激光熔覆参数选择判据(
近年来,因货车超载所引发的交通事故频频发生,造成了严重经济损失。传统检测车辆超载的方法都是基于静态称重法,这种方法往往效率较低,容易造成交通阻塞。相比于静态称重法,
膝关节炎症病发时会引起膝关节表面温度场的变化,并呈现一定的规律,研究膝关节炎患者膝盖温度分布情况,有助于患者膝关节炎症的判断。本文利用红外热像技术获取膝关节红外热
社区是公共危机管理组织中一个很关键的执行单位,因为社区是发生公共危机事件的第一现场,也是公共危机的第一应对者,具有贴近基层居民、处理危机敏捷灵活的优点。因此,对社区
我国的经济正处于疾速发展的阶段,这一阶段极大地带动了中国股票市场的发展。异动股票由于它自身的特点成为了股票市场投资者的关注重点和国内外学者的研究重点。一般来说要
学位
农业现代化是国家现代化的基础和支撑,缺少农业现代化的国家现代化是不完整、不全面、不牢固的。现阶段,我国农业现代化水平较低,制约着创新驱动发展战略的落实、经济结构的
能源是经济发展的主要动力,可以对经济总量的提升和发展速度的加快起到一定的影响作用。东北作为工业化的先行者,凭借能源优势使其经济发展迈入快轨道,然而近几年东北经济明
为了加快实施“一带一路”和长三角一体化发展战略,着力发展湾区经济,杭州湾地区是带动我国东南沿海区域发展的重要板块,是仅次于已经正式成立的上升到国家战略的“粤港澳大
随着我国科教兴国战略的实施和文化产业化的发展,学术期刊在知识交流与传播中的作用越来越突出。学术期刊作为记录科研成果的主要载体,在为用户提供高质量论文的同时,也为建