深度持续实体关系抽取算法的研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:lmwtz7x8f0
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于深度学习的实体关系抽取算法表现出较高的性能,但是现有算法通常假设待预测的关系是一个固定的集合,在使用一个固定的数据集对模型进行训练之后,就用该模型进行预测。然而,在真实场景中,往往会不断出现新的样本和关系,导致现有实体关系抽取算法面临灾难性遗忘的问题,即模型只能识别正在学习的样本中包含的关系,而遗忘从以前任务中学到的知识,最终导致模型在以前任务上的性能严重下降。因此如何提高实体关系抽取算法的实用性成为一个亟待解决的问题。为了解决这个问题,研究人员开始针对持续的实体关系抽取算法展开研究,并提出了一些较为有效的方法,但仍然存在以下问题:1)现有算法大都采用回放机制,但旧样本的选取没有考虑新旧关系之间的相似性,导致回放的有效性较低。2)持续学习场景下,分类层存在倾向把新旧样本都分到新关系的问题,现有算法都没有对这种倾向性进行解决。3)现有原型学习在计算关系原型时存在误差累积的问题。4)现有算法都是建立在有监督场景下,需要大量人工标注的数据进行训练,限制了算法的实用性。为了解决上述缺陷,本文对现有的实体关系抽取算法和持续学习算法进行了深入研究,并对已有的持续实体关系抽取算法进行了充分分析,提出了一种更有效的持续有监督关系抽取算法和一种高效的持续无监督关系抽取算法。本文的主要工作与创新如下:1)本文提出了一个持续有监督关系抽取算法。具体地:首先,针对现有算法在回放时没有考虑新旧关系相似性的问题,本文提出基于句子语义相似度的样本选择器对旧关系样本进行选择,使那些和新关系更相似的旧关系有更大的回放比重。接着,本文提出学习-记忆激活阶段,利用知识对齐策略激活模型对旧关系的记忆,其中,通过模型对齐实现在学习新关系的同时减少模型对旧关系的遗忘,通过权重对齐解决分类层存在的倾向将新旧数据都分到新关系的问题。之后,针对现有原型学习存在的误差累积的问题,本文提出迭代式计算关系原型的方法,最大限度地保留了真正关系原型的特征,避免了关系原型的误差累积。基于上述思想,本文提出了一种更有效的持续有监督关系抽取算法DRKA(Differential Replay and Knowledge Alignment,DRKA);2)针对有监督场景需要大量人工标注的数据而导致算法实用性较差的问题,本文首次将持续学习机制引入无监督关系抽取领域。具体地:本文首先采用正则化策略,根据偏导计算参数对每个任务的重要性,并为损失函数添加正则项,在学习新任务的过程中通过该正则项减缓对旧任务重要的参数的更新速度,减少了模型的遗忘。之后,由于重要参数在正则化阶段存在小幅更新累积的问题,本文提出了记忆巩固阶段,通过回放训练进一步巩固模型对旧关系的记忆。同时,本文提出样本获取器对旧关系的样本进行获取和扩充,实现在改善缓解遗忘效果的同时,降低模型发生过拟合问题的可能。基于上述描述,本文提出了一种高效的持续无监督关系抽取算法CURE(Continual Unsupervised Relation Extraction,CURE);3)本文在多个通用数据集上进行了大量实验来评估本文提出的两个算法的有效性,并与目前最新最相关算法进行了对比。实验结果表明:本文提出的算法取得了最好的效果。尽管本文提出的两个算法都取得了较好的效果,但是第一个算法采取的网络模型较简单,导致模型的表达能力一般,第二个算法训练过程的稳定性有待进一步提高。因此如何在表达能力强的模型上进行持续有监督关系抽取以及如何提高持续无监督关系抽取的训练稳定性是本文未来的研究方向。
其他文献
目的:(1)通过对古代典籍以及近20年现代文献有关色诊源流和舌、面诊图像校正方法的整理研究,为舌、面诊图像标准色卡和数据库的建立提供理论和技术上的支持;(2)系统整理课题组积累的舌、面诊图像资料,建立规范的典型舌、面诊图像数据库,有利于推动舌、面诊图像数据的规范管理和资源共享;(3)针对舌、面诊数字化中舌、面图像颜色色差的问题,以舌、面诊典型图像库为基础,设计舌、面诊图像专用色卡,以期规范统一舌、
学位
自动驾驶汽车(Autonomous Vehicle,AV)又被称为无人驾驶汽车或者轮式移动机器人,是一种通过电脑系统控制实现的、在无人驾驶的情况下自动行驶的智能汽车。自动驾驶汽车属于机器人的范畴,是一种快速轮式自主移动的机器人。机器人操作系统(Robot Operating System,ROS)是一个开源的元操作系统,提供了必要的操作系统服务,许多成功的自动驾驶操作系统都建立在ROS的基础之上,
学位
当今社会中,网络交流在日常生活中占据着重要地位,同时也带来了一系列的信息安全问题。为了防止网络中的恶意第三方假冒正常用户,通常需要进行身份认证,即通过一定的技术手段,对网络中的用户身份进行确认。身份认证方案的构造方法也很多,比如基于密码学知识的认证,基于生物学特征的认证等等,相比较而言,基于密码学上的困难问题构造身份认证方案的应用更加广泛。目前,大量身份认证方案的构建基于密码学里传统的困难问题,例
学位
云计算技术的发展为用户提供了诸多便利,使其在享有海量计算资源和存储资源的同时,极大地减少本地的开销。然而,由于云计算模式下数据所有权与管理权相分离的特点,用户将数据加密后外包成为了必然趋势。因此,如何实现云环境下对密文数据的高效检索成为了研究热点。可搜索加密技术作为实现高效加密数据检索的关键技术,受到了学术界和产业界的广泛关注。可搜索加密技术通常基于服务器诚实且好奇的模型设计,即假设服务器会忠实执
学位
双驱互联式电磁阀是一种采用双阀芯集成式串联布置的分步直动式电磁阀,适用于核电等诸多领域的介质通断控制。介绍了驱互联式电磁阀的结构组成、工作原理,并对该阀进行了应力分析。
期刊
综控结构化通用平台采用软件化飞行器测控的思想,解决现有飞行器测试中组件难复用、测试周期长和硬件耦合深的缺点。从功能角度来看,综控结构化通用平台涉及的各个功能模块采用低耦合高聚合的集成和支持策略,单个模块独立自主,各模块之间耦合度低,在保证功能完善性和可用性的前提下,同时又整合在一个平台之下使其具有规模性和效率性;从控制角度来讲,综控结构化通用平台对测控涉及到的各个流程进行规范化处理,整体流程具有一
学位
云计算和物联网的快速发展导致了数据量呈爆发式增长,越来越多的用户选择将数据外包给云服务提供商,减少数据的存储和管理成本。然而在云环境下,用户数据的管理权和所有权会产生分离,这会对用户存储在云端的数据造成威胁。具体来说,由于软硬件的故障或人为等因素的影响,云可能会错误地篡改或删除用户的数据。然而,用户本地并不存储外包数据,所以无法直接验证云端数据的完整性。因此,如何保障外包数据的完整性成为数据安全领
学位
随着互联网的高速发展,代码漏洞的数量和种类日益增加,这给软件系统安全和网络安全带来了极大威胁。漏洞检测技术可以为漏洞修复提供参考依据,有效规避代码漏洞带来的风险。传统的代码漏洞检测方法依赖于人工分析,检测成本较高。基于传统机器学习的代码漏洞检测方法只能获得代码的浅层特征,难以适应复杂的代码漏洞检测任务。深度学习技术能够学习样本的内在规律和深层次特征,从而自动化代码漏洞检测过程。目前,基于深度学习的
学位
云计算技术推动了社会的发展,解决了大数据时代数据用户存储资源不足的问题,但这种集中化的存储架构也导致了云服务器面临资源不足的困境。密态数据去重技术能够在保证用户数据隐私性的同时,根据数据的相似性检测并删除冗余副本,从源头上缓解数据爆炸式增长导致的云服务器资源不足的问题。因此,国内外学者对云计算环境下的密态数据去重技术进行了大量研究。密态数据去重可以分为服务器端去重和客户端去重,后者有效解决了服务器
学位
区块链作为数字资产的结算日志,能够帮助金融机构进行跨组织交易。金融机构通常采用明文的方式将交易信息记录在账本上供第三方审计机构进行审查和监督。然而,明文审计会泄漏参与机构的财务收支、交易策略等隐私信息,存在经济损失的潜在危险。现有的方案通常采用加密的方式对账本的隐私信息进行保护,但是该方式不支持账本信息的审计,导致了金融机构交易过程的可信度降低。如何在保护账本隐私的情况下审计交易的正确性和账本的完
学位