基于注意力与门控机制的中英文实体关系联合抽取方法研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:liarcher
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为自然语言处理领域的一项关键任务,实体关系抽取受到越来越多的关注,其目的是从原始文本中获取结构化知识,得到<头实体、关系、尾实体>形式的三元组。提取的三元组被广泛用于知识图谱、智能搜索、电商推荐、问答系统等领域,有着重要的研究与应用价值。实体关系联合抽取利用实体和关系间紧密的信息交互,同时抽取实体以及实体对之间的关系,很好地缓解了流水线方法所存在的错误传播等问题。中英文由于语言之间的差异性,在实体关系抽取过程中所面临的问题也会不同。对于英文,一些实体关系抽取方法往往只是提取句子序列或语义信息,却没有很准确地捕捉到句子与关系之间的相互作用。对于中文而言,词信息比较关键,而一些方法常存在错误词信息引入的问题,影响了后续的实体关系抽取。同时,很少有方法对关系方向性进行判断,关系方向性判断对实体关系抽取方法的性能提升是有帮助的。而中英文共同面对的问题,那就是如果一句话中有多个关系三元组,多个三元组中的实体或实体对可能会存在共享的情况,进而存在抽取不完全的情况。针对以上不足,本文研究基于注意力与门控机制的中英文实体关系联合抽取方法。主要包含以下几个方面的工作:1、介绍与本文相关的理论基础。主要介绍激活函数、注意力机制、门控机制、卷积神经网络等深度学习方面的相关理论知识以及一些实体关系联合抽取的理论基础。2、给出一种基于注意力与门控机制的多层语义融合的英文实体关系联合抽取算法MSF_AGM。为了更准确地捕捉句子和关系之间的相互作用,我们设计了一个UMIT单元,该单元将句子中所有的token依次与每个关系标签进行注意力计算,然后结合门控机制来更新所有token的向量表示;类似的,将所有关系标签依次与每个token与进行注意力计算,结合门控机制来得到关系标签向量的更新表示。然后,将UMIT单元堆叠多层,多轮更新token以及关系向量。最后,将每种关系类型下的句子表示单独解码,解码出每种关系下句子中存在的实体对。本算法使用端到端架构共享全部参数,通过序列标注的方式提取头尾实体,得到实体关系三元组。为了验证算法的有效性,进行了实验对比,实验结果表明,本文给出的MSF_AGM算法比经典算法性能更好。该算法在NYT与Web NLG数据集上的F1值分别达到了86.0%与84.5%,与较好的经典算法PRGCLSTM相比,在两个数据集上的F1值分别高出了1.1%和3.7%。3、给出一种基于注意力与门控机制的词信息融入的中文实体关系联合抽取算法PR_AGM。该算法在BERT提取字符特征信息的基础上,将不同分词工具得到的不同粒度的词信息通过注意力机制融入到字符特征中。同时通过注意力机制,将不同关系类型信息分别融入到句子表示中,再经过门控机制调节关系信息融入程度。接着,加入方向性预测,过滤掉错误实体对,以提升模型预测能力。在解码时,对不同关系类型下的句子向量表示,分别进行实体抽取,得到不同关系下句子中存在的实体对。为了验证算法的有效性,进行了实验对比,通过实验结果表明,本文给出的PR_AGM算法比经典算法性能更好。在中文数据集上的查准率、召回率及F1值,该算法分别达到了80.9%、82.9%和81.7%,与效果较好的经典算法相比分别提高了1.4%、2.2%和1.6%。经过对比实验验证,在基于注意力与门控机制下,本文给出的多层语义融合的英文实体关系联合抽取算法MSF_AGM重点关注句子与关系之间的相互作用,能较好应对英文语料中的实体重叠问题,有不错的性能改进。同时,本文给出的词信息融入的中文实体关系联合抽取算法PR_AGM在对中文语料进行实体关系抽取时也有不错的性能提升,并且能减少错误词信息引入以及缓解实体重叠问题。从而,为自然语言的下游任务提供更好、更多帮助,可以推广应用到相关领域。
其他文献
随着社会经济持续发展和城市建设不断加快,城市公共交通在提高交通服务运营水平、改善城市居民出行体验上愈发重要。然而在城市公共交通日常运营中,部分地铁站点或公交站点在遭受极端天气后可能引发大范围交通阻塞,导致交通系统结构连通性严重下降。同时,城市公共交通系统存在不平衡发展现象,部分地铁站点或公交站点承载了城市公共交通系统的大部分运量。为提升城市公共交通网络抗毁程度,避免站点故障大幅降低出行效率,优化交
学位
随着大数据智能领域的迅速发展,人类向着信息化社会不断前进和突破,现在已经进入到了现实世界和虚拟世界相结合的时代。如何综合分析不同领域带来的不同体量和维度的信息来提供正确的决策是当前领域发展必须面临的问题。在多类型信息源融合的实际应用过程中,一般都是通过传感器来获得相应的信息,传感器的信息收集是多传感器融合过程中至关重要的第一步,信息源的可靠性收集决定着最终的决策结果是否正确。现实情况中,由于恶劣天
学位
基于2022年“高校考试招生改革引导学生德智体美劳全面发展研究”项目组所收集的“高考改革调查问卷”中40326份高中生问卷,结果显示:高中生对高考选科制度和选科结果基本满意,对高考选科需要多主体共同参与基本认可,认为高考选科利于专业选择与职业规划,部分高中生选科时出现心理焦虑,传统文理分科仍是所选人数最多的组合。同时也发现:高中生对高考选科制度和对未来发展的引导基本满意、对家长参与高考选科的认可度
期刊
癌症主要由体细胞基因突变加速积累导致细胞无限增殖引起,癌症研究的一个关键步骤是识别导致肿瘤从正常状态向恶性状态转变的驱动突变和驱动基因。此外,癌症驱动基因往往只在少数生物学通路中发生作用。因此,研究者们开始将关注点从识别驱动基因转移到识别驱动通路。识别驱动通路有助于揭示疾病发生和发展的自然规律,对癌症患者的精确治疗、新的药物靶点和诊断测试具有重要意义。研究表明,多条通路在相同的生命活动和致癌过程中
学位
随着科技的发展和信息化设备的普及,现实世界中实体间联系的多维度属性愈发明显,如社交网络中存在不同的社交平台,分别表示用户不同的社交偏好,具有不同的社交属性,准确表征用户在不同社交平台下多维度的社交行为,对于社交网络的分析研究具有重要意义。由于多层网络独特的分层结构,使其能准确刻画实体间的多维度联系,因而已经逐渐成为建模、分析和研究多关系复杂系统的重要工具。在网络科学中,识别多层网络潜在的社团信息对
学位
随着时代的发展,人们对社会公共安全的需要也不断提高,越来越多的学者投入到相关领域的研究中。行人重识别作为一项人工智能技术,被广泛的运用到城市的安防系统中,其主要研究内容是在跨设备下的监控图像或者视频序列中检索出目标行人。现有的行人重识别方法大多集中在对一个模态的研究,即可见光模态,所用的行人图像均取自于工作在白天的可见光摄像头。事实上,这样的摄像头并不能在弱光或者黑暗的条件下捕捉到有效的行人信息。
学位
随着语义网的不断发展,RDF(Resource Description Framework,RDF)数据已被广泛用于各个领域的知识建模与数据重用,导致其数据量呈现出爆炸式的增长。RDF数据所形成的RDF图知识库(简称为RDF图)也从刚开始的仅数百万条数据增长至上亿条数据,其中开放关联数据(Linked Open Data,LOD)截止到目前已拥有超过620亿条链接数据。各领域RDF数据的不断增长,
学位
使用频率高、运动损伤(如摔跤)、疾病(如脑中风)等都可能导致腕关节功能性障碍。腕关节康复训练在促进功能障碍恢复中起着重要作用。AR(Augmented Reality,增强现实)技术是一种借助相关技术把虚拟对象无缝叠加到真实世界中,从而实现对真实世界环境增强补充的技术。将AR技术和腕关节康复相结合,把计算机生成的虚拟指导训练信息叠加到病患腕关节真实训练过程中,让病人清晰、明确地看到自己当前肢体动作
学位
古文字作为人类用符号来记录古代历史、经济、文化、科学技术发展的瑰宝,其对文明历史的传承和知识文化的传播发挥着不可替代的作用。然而古文字一直是冷门领域,相关的研究资料也是非常贫瘠。究其原因主要是其自身的特殊性,比如需要掌握丰富的专业知识和多年的研究经验的学者,同时由于历史发展和保护条件有限,大量古文字载体存在不同程度的损毁。因此古文字的保护研究工作迫在眉睫。古文字识别是古文字学最为核心的研究课题,本
学位
随着经济社会和科学技术的不断发展,社会的交互关系逐渐网络化,如从企业邮件转发网络到全球通讯网络,从城市居民出行网络到全球交通网络。这些网络从抽象、具体,以及微观、宏观等多个层面对现实的复杂系统进行描述,因此通过利用网络科学和计算机科学的理论来挖掘复杂系统中的共性特征和潜在的组织结构,为理解复杂而又抽象的现实世界提供了有效的依据。然而,当今社会经济的不断膨胀引起了网络规模的急剧扩张以及复杂化,给网络
学位