【摘 要】
:
随着互联网的高速发展,各种各样的事实、常识等知识日益增长。实体关系抽取作为抽取这些知识的核心技术,吸引了越来越多的研究者关注。现阶段实体关系抽取已经用于构建知识图谱、自动问答等诸多场景。然而,目前实体关系抽取技术大多在封闭域的数据上进行研究,并且在现实场景中关系事实的表达方式更加多样,实体关系可能是随时间而不断变化的,且新关系数量仍在不断增长。现有的方法很难解决开放领域下所面临的标注样本少、标注成
【基金项目】
:
国家自然科学基金(61772075); 河北省自然科学基金预研项目(F2022208006);
论文部分内容阅读
随着互联网的高速发展,各种各样的事实、常识等知识日益增长。实体关系抽取作为抽取这些知识的核心技术,吸引了越来越多的研究者关注。现阶段实体关系抽取已经用于构建知识图谱、自动问答等诸多场景。然而,目前实体关系抽取技术大多在封闭域的数据上进行研究,并且在现实场景中关系事实的表达方式更加多样,实体关系可能是随时间而不断变化的,且新关系数量仍在不断增长。现有的方法很难解决开放领域下所面临的标注样本少、标注成本高、实体关系种类繁多等挑战。因此,本文面向开放领域,基于深度学习方法进行了实体和关系联合抽取、开放关系检测、开放关系发现以及持续关系学习的相关研究,主要研究内容如下:(1)提出了一种基于表示迭代融合的实体和关系联合抽取方法。现有的研究在提取实体之前很少考虑实体之间可能存在的关系信息,这可能会导致大多数提取的实体不能构成有效的三元组。本文提出将关系信息作为先验知识引入,用于减少对语义无关实体的提取,从而减少对三元组的冗余提取。首先,将句子中的单词和预定义的关系建模为图上的节点。然后,基于异构图神经网络的表示迭代融合将两种语义节点进行迭代语义融合,来获得更适合于关系抽取任务的节点表示。最后,模型利用最终更新的节点表示进行关系抽取。本文在两个公开的关系抽取基准数据集NYT和Web NLG上评估了提出的方法。实验结果表明,该方法能够有效地抽取实体关系三元组,并在两个数据集上优于最新的方法。此外,提出的方法也适用于关系分类任务,在Sem Eval 2010 task 8数据集上其性能比以往的方法有显著提升。(2)提出了一种基于动态阈值的开放关系检测方法。现有的关系分类方法在处理没有先验知识的未知关系时存在局限性。本文通过动态阈值检测未知关系的同时对已知关系进行准确分类,其中阈值由样本自身的特征生成。首先,模型根据输入的句子和注释的实体将其编码为关系表示向量。然后,通过拼接关系表示向量和关系嵌入,经过多层感知机输出的未归一化的概率。最后,通过拼接关系表示向量和零向量来生成动态阈值,未归一化的概率将与该阈值进行比较,使用该阈值确定输入实例是否属于未知类。此外,为了获得更好的动态阈值学习效果,采用流形混合和实体边界滑动两种负样本生成技术,使阈值学习对开放关系样本具有更强的鲁棒性。在两个基准数据集上进行的实验表明,该方法的性能明显优于目前的先进方法,并具有较强的鲁棒性。(3)提出了一种基于自加权损失的开放关系抽取方法。最近的开放关系抽取工作利用从标记数据中学习到的关系语义知识来聚类无标记的关系实例。然而,这些知识通常没有被充分利用,而且在转移到另一个领域时表现得很差。为此,本文提出一种半监督学习范式,该方法利用度量学习从标记数据中学习关系语义知识,然后通过对无标记数据的无监督学习来识别新的关系。首先,编码器是预先训练的,它利用标记数据中的关系实例来学习关系表示。此外,为了更好地学习关系表示,提出了一种基于对的自加权损失算法。利用自调整梯度作为权重挖掘信息实例。然后,将从无标签数据中抽取的关系表示用k-means聚类得到伪标签。最后,对伪标记数据交替进行聚类和度量学习。在三个基准数据集上进行的实验结果表明,Semi ORE可以显著超过最先进的基线,并在不同领域展示出强大的知识转移能力。(4)提出了一种基于一致性表示学习的持续关系抽取方法。现有的基于记忆的持续关系抽取方法往往会过度拟合记忆样本,并且在不平衡的数据集上表现不佳。本文在回放记忆时通过对比学习和知识蒸馏来保持关系嵌入的稳定性。具体地,首先使用基于临时记忆的监督对比学习来训练每个新任务,以便模型可以有效地学习关系表示。然后,对记忆库中的样本进行对比回放,通过记忆知识蒸馏使模型保留历史关系的知识,防止旧任务的灾难性遗忘。所提出的方法可以更好地学习一致性表示,以有效地减轻遗忘。在Few Rel和TACRED数据集上的实验结果表明,本文提出的方法明显优于最先进的基线,并且在不平衡的数据集上产生了很强的鲁棒性。实验证明本文提出的方法在相应的研究内容上均取得了较优的性能,通过解决开放域场景下存在的核心科学问题,促使基础研究成果走向应用。提出的研究方法可赋能构建知识图谱和知识驱动的自然语言处理,并为人机交互的深入研究奠定基础。在本文的最后也总结了在研究过程中遇到的问题以及对未来工作的展望。
其他文献
制造业是国民经济的主体,是立国之本、兴国之器、强国之基。随着精益思想的不断推广,U型装配线成为精益生产企业最主要的生产配置。在U型装配线中,人和机器二者之间存在合作和干涉两种情况。在一人多机工作站中,随着人机比的增加,系统成本支出逐渐减少,但人机干涉现象逐渐严重,生产效率随之降低。因此,研究合理的任务分配并提出合理的生产管理建议具有一定的理论和现实意义。本文围绕人机配比分析的一般框架展开,以U型装
双辊铸轧工艺作为生产合金薄带常用的工艺,具有能耗低、流程短、工序少、绿色环保等特点。但是由于双辊铸轧工艺在生产薄带时容易发生严重影响合金性能的中心偏析,且这种中心偏析属于宏观偏析,无法在后续热处理阶段中进行消除,所以双辊铸轧薄带的生产与使用受到了严重的制约。尤其是在生产耐高温Al-Cu合金薄带时,由于合金中含有相当数量的耐高温相,当这些相在中心偏析区域聚集时会大幅降低合金的各项力学性能,导致在工业
铝硅合金作为一种常见的铸造合金,具有流动性好、热导率高、力学性能好等优点,被广泛应用。电热法是目前很有前景的一种铝硅合金生产技术,不仅生产能耗低,还可以用低品位铝土矿和非铝土矿资源作为原料。内蒙古准格尔煤田产出大量高铝煤矸石,其氧化铝含量最高可达50%,为典型的高铝煤系固废资源,可以替代铝土矿作为电热法生产一次铝硅合金的原料。然而,以高铝煤系固废为原料生产的一次铝硅合金中铁含量较高,导致其不能直接
由于燃油汽车升级为电动汽车的产业转型,汽车制造业对于电化学储能设备的需求量激增,而锂离子电池具备能量密度高、工作电压高、循环寿命长等突出优点,故被广泛用于电动汽车储能装置。然而目前广泛商用的石墨负极材料的理论比容量较低(372 m Ah g-1)导致电动汽车续航里程较短,极大的限制了电动汽车的使用场景,因此有必要探索具有高容量的新型负极材料。二元过渡金属氧化物ZnMn2O4负极材料作极具前景的负极
目的 探讨分级团队联合临床护理路径在严重创伤患者中的应用效果。方法 回顾性分析2020年4月至2021年12月在该院创伤急救中心接受严重创伤救治的600例患者的临床资料,根据急诊团队救治模式的不同,将2020年4-12月接受传统创伤救治的300例患者归为对照组,将2021年1-12月接受分级团队联合临床护理路径救治的300例患者归为观察组。比较2组患者急诊急救时效指标的情况。结果 观察组分诊级别符
软件系统在其整个生命周期中会经历许多变化。代码坏味表示糟糕的编程实践,它既不是bug或者技术上不正确的事件,也不会阻止程序正常运行。然而,代码坏味的存在会成为软件潜在的弱点,可能会减缓软件的开发速度或增加未来出现错误或失败的风险。代码坏味也成为导致技术债务因素的指示器,它的存在会产生质量较差的软件,并妨碍软件的可理解性、可重用性和可维护性。因此,研究人员需要对这类代码片段进行重构,而软件重构关键的
近年来为了响应国家出台的节能减排政策,越来越多的轻质铝合金材料开始被应用到汽车制造中,汽车重量因此降低,有害气体的排放也大幅度减少。相比于其他系列的铝合金,7000系铝合金的高比强度和耐腐蚀性与其他合金相比优势明显,是理想的汽车轻量化材料。7000系铝合金通常采用热成形工艺,热冲压成形工艺参数对最终的铝合金力学性能有重要的影响,对于这些工艺参数如固溶时间、转移时间、模具压力及后续的时效处理如何影响
随着5G技术的成熟发展、智能移动设备迅速普及,社交网络将越来越多的人连接到一起。随之而来的是浩如烟海的多模态社交媒体数据,命名实体识别是将海量社交媒体数据进行结构化处理的重要手段。目前,命名实体识别可以分为文本模态命名实体识别与多模态命名实体识别。文本模态命名实体识别主要处理文本模态信息,将原始文本中的“人名”、“地名”、“机构名”等实体抽取出来。然而文本模态信息所携带的信息量往往是有限的,更多的
全世界人口的增长导致化石燃料被不断的开采和消耗,从而引发了环境污染等问题。所以亟需利用可再生能源来填补能源缺口。像风能、水能和潮汐能这样的清洁能源可以被大规模应用,但这些能源会受到地理或气候的影响。因此,需要开发出成本低、安全性高且环境友好的储能设备来克服这些条件的限制。近些年,锂离子电池(LIBs)因其能量密度高、平均输出电压高(约3.6V)和工作温度范围宽等优势被广泛应用于大型的储能设备中。但
随着知识图谱的发展,基于知识图谱的问答逐渐成为研究热点之一,尤其在一些特定领域知识图谱出现之后,对于问答的方法和效果提出了新的要求。用户期望在基于特定领域知识图谱进行提问时,可以提出与领域有关的常识性问题,也称为概念性问题,并且系统可以回答与图像有关的问题,也称为多模态问题。因此本文设计了问答方法,能够同时解决由概念性问题和多模态问题组成的混合问题,并且返回混合问题的图像答案。首先构建了一个领域多