论文部分内容阅读
实体关系抽取在自然语言处理中扮演着至关重要的角色,旨在从纯文本中挖掘出实体对之间潜在的语义关系,并在知识库构建和问答系统等任务中有着广泛应用。作为该领域的研究热点,基于远程监督的关系抽取结合知识库中的关系实例作为辅助信息,通过与非结构化文本对齐的方式自动标注数据。远程监督方法虽然能够有效缓解训练语料不足的问题,但同时也因错误标注而引入了数据噪声。现有工作大多采用多示例学习的方式,将提及同一实体对的所有语句视为一个包,并利用注意力机制筛选出包内重要的语句,从而降低数据噪声对关系抽取的影响。然而,当包内数据过于稀疏时(例如,NYT数据集中80%的包只有一条句子),注意力机制便难以发挥功效。此外,目前基于依存句法树的方法虽然能够有效捕捉单词间的长距离依赖,但忽略了不同单词对于表达实体关系的重要性差异,无法选择性关注依存树中与关系抽取最为相关的句法结构,导致模型难以准确、有效地抽取实体间的语义关系。针对以上不足,本文提出了融合降噪门的图注意力网络(Graph Attention Network with Denoising Gate,GAT_DGATE)实体关系抽取模型。具体而言,该模型使用图注意力网络将依存树转换为加权有向图,并通过节点相关度筛选出对关系表达更为关键的子结构,有效消除句子中冗余信息的干扰,从而更准确地表达实体间的语义关系。其次,本文还提出了一种新颖的降噪门机制,根据包内各个句子与标注的相似度计算门控值,把对注意力的归一化操作改进为对门控值的均值池化操作,避免了包内只有一个句子时注意力机制难以生效的情况,进一步增强了模型的鲁棒性。此外,出于对远程监督生成的负例数据通常远多于正例数据这一客观事实的考虑,本文还结合单边梯度采样法以解决样本类别不均衡的问题。本文基于远程监督实体关系抽取任务中广泛应用的NYT数据集,设计并进行对比实验。实验结果表明,相较于业界主流的方法,本文提出的GAT_DGATE模型在PR曲线与AUC值、Precision@N等评估指标上表现更佳,验证了该算法的有效性。此外,本文还通过可视化分析和案例分析对图注意力网络和降噪门的功效进行定性评估,分析结果表明本文方法具备良好的可解释性。