【摘 要】
:
随着大数据时代的到来,如何对海量非结构化数据加以存储和利用,是信息抽取领域面临的重大挑战。关系抽取是信息抽取领域内最为重要的基础任务之一,旨在将文本中标注的两个或多个实体间的关系提取出来构成三元组,以支持知识图谱、检索和问答等下游任务。传统的有监督数据集无法支持深度学习对数据量的要求,于是远程监督数据集应运而生,实现了大规模数据的自动标注。然而该任务下还有着许多亟待解决的关键问题:第一,数据集构建
论文部分内容阅读
随着大数据时代的到来,如何对海量非结构化数据加以存储和利用,是信息抽取领域面临的重大挑战。关系抽取是信息抽取领域内最为重要的基础任务之一,旨在将文本中标注的两个或多个实体间的关系提取出来构成三元组,以支持知识图谱、检索和问答等下游任务。传统的有监督数据集无法支持深度学习对数据量的要求,于是远程监督数据集应运而生,实现了大规模数据的自动标注。然而该任务下还有着许多亟待解决的关键问题:第一,数据集构建时的强假设性所造成的噪声问题;第二,语言文本本身存在着大量与目标关系无关的冗余词句;第三,多示例包内数据稀疏及噪声影响导致的包内信息不足。针对以上三个问题,本文提出了如下方案:(1)本文采用了一种融合语义表征与结构表征的关系抽取模型。首先利用BERT预训练语言模型提取句子内的语义特征,与利用依存树图卷积模型捕捉句子内的结构特征相接作为句子的完整表征,使得模型能够全面捕捉句子内部的特征信息;通过注意力机制对包内句子进行过滤,选择置信度更高的句子作为包的表征,从而缓解包内噪声数据的影响。(2)本文设计了一种利用多头自注意力机制的依存树软剪枝策略。针对自然语言表达的多样性所导致句子内存在的大量与目标实体、关系无关的冗余信息问题,实现自主地对依存树中节点间的连接性重新分配合理权重,降低句子内部无关噪声词对模型的影响,从而提高模型的鲁棒性。(3)本文定义了一种包关系-实体对边图模型,将包内两个实体间存在的关系作为图节点,若两个包之间存在相同实体就认为这两个节点之间存在联系,以此构建包关系-实体对边图。结合上述包级别的特征向量,利用图卷积神经网络来捕捉包间的拓扑结构信息,使得每个包的表征能够融合与之相关的包中的信息,对于某些有且仅有一条句子的包而言,能够在不依赖外界信息的条件下,捕捉到更多有效信息降低包间噪声。本文通过对比实验证明:相较于基线模型本文提出的模型取得了最优的性能,其中AUC值达到了较高的0.472。通过消融实验证明:融合语义和结构两种特征能够提升模型对句子的表达能力;利用多头自注意力机制能够降低句中冗余信息的权重,让模型更关注与目标关系相关的信息;结合包关系-实体对图卷积模型能够有效地利用包间信息,提高模型抽取能力。
其他文献
随着互联网的进步,金融行业也逐渐转变技术发展方向,信息化和科技化建设成为行业发展的核心。为了吸引更多的客户,N银行就需要更优秀的线上产品,向客户提供优质的服务,更好的服务客户。N银行目前采用的是瀑布开发模式,该模式有利于对软件项目的组织和管理,便于项目研发过程中的风险把控,能够很好保证上线产品的稳定性和安全性,符合金融领域的安全性要求。但相较于现在流行的敏捷开发模式,瀑布开发模式响应用户需求方面存
铁路是世界各国交通的重要组成部分,而有砟轨道是其主要的轨道形式。随着铁路轨道结构的发展,无缝线路应运而生。如今,无缝线路几乎已成为铁路轨道的必选结构。无缝线路取消了传统的钢轨接头,使线路的平顺性大大提高,从而提高了列车的运行时速。但是,在长钢轨锁定之后,无缝线路钢轨内部会积累很大的温度力,同时还会受到来自列车的启动力、制动力和牵引力以及其他应力。这些力共同构成了钢轨内部的纵向力。为了抵抗钢轨的纵向
水系锂离子电池不仅更加安全环保,而且在实际应用中能够表现出较高的能量密度,表现出更加广泛的应用前景,吸引了很多研究者的目光。尖晶石锰酸锂(LiMn2O4)作为一种常见的受人欢迎的锂离子电池正极材料,不仅储藏丰富、成本低,而且具有易合成等优点,是最有潜力的电池电极材料之一,但是容量衰减问题限制了其发展和应用。因此,本文以尖晶石锰酸锂(LiMn2O4)为研究对象,从控制晶面取向和表面包覆两个方面来抑制
我国近年来制造业总体的劳动生产率在稳步提升,但同美国、日本等发达国家相比仍有较大差距,特别是中小企业的传统劳动密集型生产车间,自动化率低,管理混乱,生产效率低,大大影响企业生产效益。生产线作为与生产直接相关的场所,生产线平衡及布局的合理规划设计可以影响产品的生产效率、工人的生产积极性,同时降低搬运、存储成本,因此设计出更合理高效、顺滑流畅的生产线能够促进中小制造型企业走向更快、更强的道路。为了解决
随着MEMS、NEMS和纳米制备工艺的发展,器件的微小化、集成化已经成为常规需求。扫描探针传感器的发展,为纳米级探测、扫描、信息存储、光刻和直写等方面推进了一大步。自驱动自检测微悬臂梁传感器以高度集成化、体积小巧和制备简单的特点,在形貌检测和无掩膜光刻直写方面有显著的优势。其中电热驱动的悬臂梁传感器,具有驱动效率高、提供稳定振幅、可控性强的驱动力和制备工艺简单的优势。在扫描探针光刻(SPL)领域,
川藏铁路作为我国第二条进藏铁路,连接起四川省与西藏自治区的快速通道,但川藏线缺少高压等级电网,川藏500k V电力联网工程距离线路较远,大部分区段外部电源条件较为薄弱,缺乏有力电网支撑。同时作为电力系统的一种特殊用电负荷,牵引负荷对电网冲击性较强、随机性波动较大,而且牵引负荷属于单相、非线性负荷,会引发负序和谐波,需要对上述问题综合考虑。本文首先在MATLAB/Simulink仿真环境下搭建了电力