基于预训练模型的实体关系联合抽取技术研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:shekitito
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网技术的发展已逐渐改变了人们获取信息的方式,如何从非结构化文本信息中获取关键信息以构建知识图谱面临巨大的挑战。作为知识图谱的基础任务,命名体识别和关系抽取的目的在于从非结构化文本中分别抽取实体和实体之间的关系,从而为语义检索、知识问答、逻辑推理等下游任务提供重要的支持。本文在对实体关系联合抽取任务研究时发现,现有的联合抽取模型由于存在误差传播、信息冗余等问题,导致其很难有效地抽取出语句中的所有三元组,特别是重叠三元组。针对上述问题,本文从关系的角度出发,总结出了一种新颖的联合抽取范式,即基于关系识别实体。首先,本文基于“不同的语句上下文,关系应具有不同的表征”的假设,提出了一种新颖且高效的模型输入形式,旨在根据语句上下文学习关系表征。然后,本文基于“语句中涉及重叠三元组的关系,它们的表征更相似,且与同一语句中的其他关系的表征不相似”的假设,提出了一个关系对比预训练模型(Relation Contrastive BERT,RCBERT),该模型使用对比学习的方法进行训练,进一步学习关系表征之间的差异性。最后,本文将RCBERT作为编码器,并基于“语句中涉及重叠三元组的关系,它们之间存在相关性”和“在不同的关系下,语句中的词应具有不同的表征”这两个假设,提出了一个多级注意力联合抽取模型(Multi-Level Attention Model,MLA),通过关注语句与关系、关系与关系以及关系与词之间的相关性,实现对重叠三元组的有效抽取。为了更好地评估本文所提出模型的有效性,本文对RCBERT模型学习到的关系表征进行了相似性度量,证明了其学习到的所有关系表征具有差异性;对于MLA模型,本文在NYT和Web NLG数据集上进行了对比实验和扩展实验,证明了其能有效地抽取重叠三元组。最后,本文还对MLA模型进行了消融实验,验证了各组件对模型的重要程度。
其他文献
几何体拟合算法作为检测产品规格是否合格的重要算法之一,其主要任务是根据产品数字化的表达形式之一——三维点云数据,计算出产品的参数,检测产品规格是否合格。市面上大多数几何体是由规则曲面组成,因此,几何体拟合过程实际上是规则曲面拟合过程的集合,典型的曲面拟合算法主要包括基于最小二乘法的规则曲面拟合算法、基于特征的规则曲面拟合算法和基于深度学习的规则曲面拟合算法。然而,现有算法的拟合效率和拟合准确度都不
第一部分:人钙化性主动脉瓣中Sam68的表达及自噬水平改变目的:检测人钙化性主动脉瓣膜与对照组标本,比较Sam68的表达变化,明确主要表达Sam68的细胞类型,同时检测钙化瓣膜组织自噬水平的改变,方法:经过华中科技大学同济医学院伦理委员会申请批准,参考ESC/EACTS联合发表的《心脏瓣膜病管理指南》,选取主动脉瓣中到重度狭窄的CAVD患者,获取术后钙化性人主动脉瓣组织切片,茜素红染色检测瓣膜组织
量子纠缠操控的实现推动了量子信息技术的快速发展,不管是在量子通信还是量子计算领域,都广泛的应用了量子纠缠态,其潜在用途已在各种应用中得到了证明。目前的研究表明,利用光力相互作用可以在腔光力系统中实现光学模式和力学振动模式间的纠缠,同时也可以实现不同光学模式或者力学模式间的纠缠。这使得腔光力系统的研究受到越来越多的关注,由于可以制备具有多样性的量子纠缠态,腔光力系统将有望用于实际的量子信息和量子通讯
强磁场已成为现代科学领域越来越重要的极端实验条件之一。同时,随着大功率太赫兹源、核磁共振等前沿大科学实验的发展,人们对磁场稳定度、强度和持续时间的要求也越来越高,因此同时具有高场强、高稳定度特点的平顶脉冲强磁场技术被提出并得到深入研究。为了实现高稳定度的平顶脉冲磁场,一般采用高频补偿电源与大电流主电源结合的方式,补偿电源在主电源电流(磁场)达到平顶阶段后,对其进行补偿,提高纹波水平。但现有的平顶脉
目的:深静脉血栓形成(Deep venous thrombosis,DVT)是创伤性骨折患者中最常见的并发症。中性粒细胞胞外诱捕网(Neutrophil extracellular traps,NETs)除了发挥抗菌作用外,还具有促进血栓形成的作用。在这项前瞻性研究中,我们研究了NETs在创伤性骨折患者血栓形成中的作用,以及生物标志物NETs是否可用于辅助诊断患者的血栓形成风险。方法:本研究纳入自
随着5G技术的快速发展,微波介质陶瓷滤波器因其具有体积小、高Q值、高功率容量等优势,被大量用于5G基站,但是高性能的陶瓷介质滤波器离不开高性能的微波介质陶瓷材料。因此开发性能优异的微波介质材料变得尤为重要。本文以LaAlO3基微波介质陶瓷作为研究对象,通过传统固相法制备La1-xYxAl O3(x=0-0.2)和La Al1-x[Mg0.5Ti0.5]xO3(x=0-0.2)系列陶瓷,并通过XRD
电磁轨道炮采用全电的发射方式,借助电磁力加速物体至高速,其发射效率等于电能到动能的转化率。如何提升发射效率一直是电磁轨道发射技术的研究热点和发展瓶颈。高功率脉冲电源分布式储能、分时序触发的策略设计是提升电磁轨道发射系统效率的有效途径,但分布储能式电磁轨道炮的实物研制周期长、试验成本高,因此仿真建模成为评估其整体动态性能、研究效率提升方法的必由之路。首先,建立分布储能式电磁轨道发射系统的仿真计算模型
富氧燃烧技术被认为是最有潜力的CO2捕集技术之一,加压富氧燃烧技术由于具有发电效率高、污染物排放低等优势,被认为是一种更加高效清洁的二代富氧燃烧技术。受限于实现高温高压条件的实验台架搭建困难,目前对于煤颗粒在高升温速率、较宽压力范围内的燃烧特性实验研究相对较少。本文自主搭建了一套加压聚光光热快速升温实验台架,可以实现热解和燃烧过程中颗粒形态、温度、燃烧动态图像、产气信息等多参量实时测量。详细考察了
传统书院作为我国古代社会教育及思想文化传播的载体,见证了我国一千多年来的文化教育发展史。自唐代起,历代书院数量约达7000多所,然而流传至今书院越来越少,书院加速消亡的趋势也愈发明显。一直以来,学术界对书院的研究多集中在历史沿革、制度考察、形制解析、文化关联等方面,且成果丰硕,但对于传统书院遗产的保护与再利用问题尚待拓展。再者,对于传统书院遗产的价值缺乏系统认知,因此有必要从整体视角对其物质要素、
苯乙基间苯二酚(Phenylethyl resorcinol,PR)是一种高效美白活性成分,是高活性的酪氨酸酶抑制剂,能有效抑制黑素细胞中黑色素的合成。但是,PR的光、热稳定性差,易氧化变色,且溶解性差,难以透皮吸收,难以被黑素细胞摄取。纳米脂质体具有良好的细胞亲和性和生物相容性,可有效增加活性成分的稳定性,改善活性成分溶解性。人体皮肤及皮肤细胞呈负电性,将纳米脂质体进行修饰,制备成带正电荷的阳离