【摘 要】
:
伴随着大数据时代的到来,海量信息涌现在网络上,并且通常以非结构化的本文形式存在。信息抽取的目标是从这些数据中提炼出关键信息,形成结构化输出以应用于知识图谱、情感分析和信息检索等领域。关系抽取作为信息抽取的一项关键子任务,主要作用是发现文本句子所表达的实体关系。目前有监督的关系抽取方法非常依赖于人工标注的训练数据,这类数据制作过程费时费力,导致该方法往往只能完成小规模的任务。基于远程监督的关系抽取因
论文部分内容阅读
伴随着大数据时代的到来,海量信息涌现在网络上,并且通常以非结构化的本文形式存在。信息抽取的目标是从这些数据中提炼出关键信息,形成结构化输出以应用于知识图谱、情感分析和信息检索等领域。关系抽取作为信息抽取的一项关键子任务,主要作用是发现文本句子所表达的实体关系。目前有监督的关系抽取方法非常依赖于人工标注的训练数据,这类数据制作过程费时费力,导致该方法往往只能完成小规模的任务。基于远程监督的关系抽取因其能够快速、轻松地获取大规模数据集而受到研究人员的广泛关注。但是其生成数据的方式过于简单直接,不可避免会有噪声的混入。本文主要围绕远程监督产生的噪声问题以及神经网络方法存在的不足进行以下研究:(1)为解决远程监督所带来的噪声问题,提出基于改进注意力和标签匹配的关系抽取模型。首先提出一种改进的注意力模块捕捉关键信息,该模块能够结合关系向量动态调整单词权重,为模型提供更为显著的特征,进而得到更优的语句向量表示。然后通过设计的标签匹配模块为句子重新匹配高置信度标签,将一部分噪声数据转变成有效的训练数据,在降噪的同时增加有效训练实例,从而有助于模型的训练。(2)为加深网络对于句子语义的理解,提升关系抽取效果,提出一种基于多头自注意力机制的特征融合模型。在关系抽取任务中,语句中的关键单词跟短语均能为模型的预测提供有效信息。本文使用多头自注意力机制分别对重要的单词和短语特征进行增强,能够在获取关键信息的同时捕捉句子的长距离依赖关系。然后通过特征融合的方式整合这两部分的信息得到语义增强的句子特征表示,从而为模型提供更加丰富的信息,有助于模型的训练。最后,采用多示例学习的方法,以包为单位完成关系的预测。我们在一个公开数据集上与多个模型进行对比试验,本文采取的两种方法平均P@N指标分别达到79.5%和79.7%,且精确率/召回率曲线要优于几种对比模型,由此证明本文的方法为提升关系抽取效果做出实质性的贡献。
其他文献
本文主要采用SEM、XRD、EBSD和TEM等多种组织结构表征手段,研究热轧温度、热轧压下量、热轧道次、热轧速率、热轧冷却方式等热轧工艺参数和热轧前的预处理工艺对Fe49.5Mn30Co10Cr10C0.5高熵合金显微组织的影响。实验结果表明:控制热轧工艺参数和热轧前预处理工艺,能控制热轧后的显微组织,包括相的形态、数量和分布,基体的带状结构和再结晶程度,孪晶分数,晶粒尺寸及其分布的均匀性,并获得
Mg-Zn-Zr(ZK)系列镁合金是近年来备受关注的一类新型高强镁合金,其典型代表ZK60镁合金已经在诸多工业领域得到了广泛的应用。ZK30镁合金相较于ZK60镁合金铸造性能更好,冶炼成本相对低廉,但是由于主添加元素含量的降低,导致其强度和塑性低于后者,同时由于铸造过程中的凝固缺陷,进一步使得铸态ZK30镁合金的可塑性和机械性能降低。搅拌摩擦加工技术被认为是一种能够细化组织,提高材料综合力学性能的
随着我国“互联网+”新经济形态的推进,社会基础资产全面互联网化,企业网络空间安全问题备受关注。为了培养学生处理学习和工作中遇到的信息安全问题的综合能力,建设一个高质量的网络安全综合学习平台是十分必要的。本文提出了一个网络安全综合学习平台的建设方案,并对网络安全实验室、网络安全学习平台网站、视频自主学习网站、攻防靶场、渗透靶场、CTF训练网站、网络攻防比赛训练平台提供解决方案。实践的结果表明,采用该
壳聚糖(Chitosan)是2-乙酰胺基葡萄糖(甲壳素)的脱乙酰基衍生物。因其具有无毒、可生物降解、相容性好、易成膜、抗菌性强等独特的优点而被广泛的应用于环保、医疗、食品等诸多领域。然而,由于壳聚糖分子间相互作用较强,分子链柔顺性差而导致其力学性能不佳,这在很大程度上限制了其应用。本文以调控壳聚糖分子间的相互作用为切入点,开展了如下研究。首先,基于氢键相互作用探索了深共晶溶剂(DES)对壳聚糖薄膜
本文以Al-Mn基准晶近似相为主要研究内容,成功合成一系列复杂合金相单晶,通过单晶X射线衍射进行了结构的解析和精修,并从拓扑学角度分析了Al-Mn及Al-Mn-Ni体系中复杂合金相的基本构建单元,探索其中的联系与区别。首先,在Al:Mn原子比为2:1的高温烧结样品中发现了γ-Al8Mn5相,其晶胞参数为:a=b=12.6751(13)?,c=7.9137(9)?,α=β=90°,γ=120°,空间
电解水是制备氢气的重要工艺方法之一,实现工艺所需的电能可以通过多种可再生能源转化而来,工艺原料是地球储量丰富的水资源,是一种真正清洁的制氢手段。但自然条件下电解水反应耗能高、产氢效率低,远远不能满足工业需求。目前,通过对电解电极改性形成有催化性能的电极可以有效解决上述问题。本课题选用厚度0.2 mm的铜片作为电解电极基底,利用电化学沉积手段引入镍元素,通过调节电镀液成分、沉积电流、沉积时间等实验条
<正>电力产业是关系国计民生的重要基础产业,承担着建设、运营、数据安全等多种任务,是国家级网络攻击重点打击的对象。随着以风能、太阳能为代表的新能源的发展,尤其是近两年来,针对新能源行业的网络攻击事件并不鲜见。例如,2021年,Vestas遭遇网络攻击,导致大量数据泄露;2022年2月,德国风电机组制造商ENERCON Gmb H宣称网络攻击破坏了其装机容量总计11GW风电机组的集中远程控制系统。新
在生物信息学领域,蛋白质二级结构预测一直是研究的热点。蛋白质是人体生命活动的主要载体,因此深入理解其结构将有助于相关疾病的治疗及新型药物的研发。本文主要采用了三种不同的深度学习组合模型来提高蛋白质二级结构预测的准确率,主要工作包括以下三个方面:(1)基于WS-Bi LSTM网络模型的分类方法。本文提出了一种新的模型WSBi LSTM,结合了小波散射卷积网络和双向长短时记忆循环网络(Bi-LSTM)
<正>5月21日,中国文物保护基金会"保护长城加我一个"公募项目,喜峰口西潘家口段长城(一期)保护维修工程开工仪式在塞外蟠龙湖畔举行。国家文物局副局长宋新潮、中国文物保护基金会理事长励小捷、河北省文物局局长张立方、宽城满族自治县县委书记祁海东出席仪式并讲话,承德市文物局、宽城满族自治县县委县政府、河北省古代建筑保护研究所等有关单位负责人参加了仪式。
生物质衍生多孔碳(Biomass-derived porous carbons,BDPCs)是超级电容器(Supercapacitor,SCs)最具研究性的电极材料之一,其可从廉价、多样和丰富的可再生绿色资源中获得。现有的活性碳合成方法可获得比表面积(Specific surface area,SSA)高达3000~4000 m~2/g的碳,并且具有超过2 cm~3/g的高孔体积。然而,仅有高的S