基于多尺度神经结构的医疗文本实体关系联合提取方法研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:zhijie882008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实体提取是指从文本中识别出具有特定意义的实体,关系提取是指判定实体与实体之间存在某种关系,最近热门的实体和关系联合提取的本质是在同一个模型当中同时对这两个任务进行训练。在生物医学上,实体和关系的提取对于疾病的治疗研究具有很大的应用价值。本文依托以“COVID-19爆发”为基础构建突发公共卫生事件医疗综合决策智能辅助平台课题,目的是从生物医学文本中提取出与某种疾病或病毒相关的基因通路,为疾病的治疗方案提供依据。因此本文针对从生物医学文本中提取与基因相关的实体和关系开展研究。目前的实体和关系联合提取方式还存在以下几点问题。第一点为单词编码考虑不全面问题。在给单词编码时,仅从单词本身的角度出发,没有考虑到句子整体对于单词的影响。第二点为实体冗余问题。先提取实体再提取关系的过程会将所有实体配对进行关系分类,而有些实体并不会与其他实体构成关系三元组。第三点为生物医学文本对文档级提取的需求问题。针对以上提出的问题,本文首先对多头自注意力机制、sub-obj实体识别方式进行了研究,提出了融合多头自注意力机制和sub-obj实体识别方式的句子级实体和关系联合提取模型,提升了在句子级文本中提取关系三元组的准确性;然后针对生物医学文本特点,在前两者的基础上,对多尺度神经结构进行了研究,提出了融合多头自注意力机制和多尺度神经结构的文档级实体和关系联合提取模型,提升了在文档级生物医学文本中提取生物医学实体和关系的准确性。本文的具体贡献如下:(1)针对单词编码考虑不全面的问题,引入多头自注意力机制,将整个句子的有效信息融入到每个单词中,让单词编码更精准。改进的模型在Co NLL04和Sci ERC两个数据集上f1分数均比基线模型高了约0.8,验证了本方法的有效性。(2)针对实体冗余问题,采用sub-obj实体识别方式,该方式将原先提取实体的步骤拆分为提取subject和object两个步骤。改进的模型的f1分数在两个数据集上均取得了比基线模型高了约0.7的结果,验证了本方法的有效性。(3)基于前两点的研究基础,提出了融合多头自注意力机制和sub-obj实体识别方式的神经网络模型。在两个数据集上分别比上述两个模型的f1分数高了0.5-0.7和0.4-0.5,验证了关系三元组提取的准确性得到了进一步提升。(4)为了将实体和关系联合提取运用到生物医学文本上,本文将多头自注意力机制和多尺度神经结构进行结合得到了文档级实体和关系联合提取模型,实现了从句子级提取向文档级提取的转换。该模型在CKB CORETM数据集上的f1分数比基线模型高了约0.5,验证了模型的有效性。
其他文献
新型污染物(微塑料)产生的环境污染是当前面临的重大环境问题之一,在工业点源方面也涉及到大量的排放。本研究着眼于工业废水中微塑料污染问题,从工程控制技术的角度出发,在调研评估太湖流域工业污染控制技术与示范工程的基础上,探讨了太湖流域重点行业微塑料的分布特征及典型工业点源污染处理技术对微塑料的截留效应。为后续水环境污染深度治理及以微塑料为主的新型污染物工程控制提供理论依据与技术支撑。论文主要研究结论如
随着第五代移动通信技术(5th generation mobile networks,5G)的协议不断演进,通信网络的应用范围逐渐扩大。各行各业对室内定位的需求日益迫切。由于噪声、多路径效应、基站用户间的时间同步等影响因素,目前5G基站还无法提供可靠的定位服务。本文以5G的上行探测参考信号(Sounding Reference Signal,SRS)为基础,研究了5G系统在室内环境下实现定位的关键
随着科学技术的发展以及在“中国制造2025“的工业化革新的背景下,精密制造业技术突飞猛进,各种设备制造朝向精密化发展,这就对各种设备关键工件的制造精度要求越来越高,如何对工件进行高精度质量检测成为一个亟待解决的课题。本课题针对通用工件的表面轮廓高精度实时测量的需求展开研究。本论文设计搭建了一个通用工件轮廓测量平台,控制系统采用A3200运动控制器,数据采集方面选用STIL光谱共焦传感器,并使用双频
随着互联网的发展网络上的信息越来越多,尝试从海量的冗余信息中挖掘出对用户来说有价值的信息,可以提高用户获取有用信息的效率;同时,从大量非结构化数据中获取结构化的知识,构建知识图谱,可以方便用户准确高效的查询相关信息。实体关系联合抽取技术可以有效的解决这个问题,将实体识别与关系抽取任务结合,减少两个任务间的误差传播造成的损失。对于具体运用来说,从文本中识别出实体和关系构建三元组,在知识图谱、信息检索
癌症是一个世界性的重大公共卫生难题,而肺癌在所有癌症中占比最大,严重威胁着人类健康。对肺癌进行早筛,进而对确诊的肺癌进行早期干预,可以有效降低癌症死亡率。因此,研究较为精确的计算机辅助检测系统用于辅助放射科医生进行肺结节筛查,提高诊断效率及准确率显得至关重要。高效精确的计算机辅助检测可以有效帮助放射科医生快速准确地发现肺结节区域,进而缓解医疗资源急剧紧缺的问题,提高肺癌患者的五年生存率。本文在3维
三维人体形状补全是计算几何分析和计算机视觉中的一个重要问题,随着三维形状捕获设备的发展,三维形状数据变得易于获取,但由于设备精度等因素的限制,得到的形状往往是破损的。在计算机动画设计过程中,若可以对破损的人体形状进行快速补全,则可以基于现实人体形状进行快速建模;同时,快速补全人体形状可以让自主无人系统以更高的精度感知人类的存在,提升人机协同效率。传统过程化补全方法依赖手工建立的几何和概率模型对破损
剩余污泥(waste activated sludge,WAS)是城市生产生活过程中产生的大宗有机固体废物,其产量年年攀升,给城市环境管理带来了巨大压力。剩余污泥兼具污染属性和资源属性特征,其科学处理与处置对于生态文明建设具有重大意义。因此,本论文针对“污泥处理与处置过程中脱水难度大、新兴污染物丰度高和资源转化效率低等”技术难题,系统开展了硫氧自由基(oxysulfur radical,OSR)预
纠错码使得通信系统具有检错和纠错的能力,从而保证了通信的可靠性。在纠错码理论的相关研究中,自正交码是一项十分重要的研究课题,在通信、数据存储以及密码学等领域有着广泛的应用。随着量子通信技术的发展,自正交码还被发现可以用于量子纠错码的构造,引起了诸多学者的研究兴趣。通常情况下,自正交码可以由线性码的正交包来构造。BCH码作为一类特殊的线性码,其结构清晰,纠错能力强,且构造方式较为灵活。因此,本文对B
硬件模型检查器是保证计算机硬件设计正确无误的工具之一。然而,硬件模型检查器本身作为一种软件,他自身也有可能存在着一些缺陷。这些缺陷或导致程序崩溃,或导致验证结果与实际不符。而使用人工撰写测试用例的方式去检查这样的缺陷,效率极其低下。因此,我们需要一种自动化的测试方法,来对硬件模型检查器进行测试。模糊测试是软件测试领域非常重要的自动化测试方法之一。它能够自动化生成随机的测试用例。模糊测试已经在多种类
三维电极生物膜反应器(3D-BERs)是一种新型的氢自养反硝化脱氮技术,无需额外投加电子供体,避免了二次污染。由于氢自养微生物在粒子电极界面挂膜时间较长,导致反应器启动较慢,初期脱氮效率不高,因此我们前期的研究中在3D-BERs中投加纳米α-Fe2O3,使之与微生物在粒子电极界面自组装形成纳米杂化生物膜,从而促进反硝化微生物的富集,加快反硝化的启动过程。目前仍有一些问题有待解决,如3D-BERs的