基于深度学习的生物医学实体关系抽取

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:chinababay
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着生物医学领域的不断发展,大量的学术科研成果以论文和文献的方式进行呈现和传播。因此,巨量的论文和文献形成了一片知识的海洋,亟待学者们进行发掘研究。生物医学实体关系抽取是利用自然语言处理相关技术,从生物医学文献中自动地抽取出生物医学命名实体以及实体之间存在的关系。这种抽取技术能够帮助领域内的研究学者高效的发现和学习相关知识,从而进一步推动生物医学领域的发展。本文的研究主题是“生物医学实体关系抽取”,具体研究内容可以被细分为两个部分:1)生物医学命名实体识别技术研究;2)生物医学关系抽取技术研究。本文提出了基于强化训练的命名实体识别方法REIN-NER。REIN-NER将命名实体识别任务定义为词级别的分类问题。首先通过对初始识别模型(P-net)进行预训练,使其具备“捕捉输入和类别标签之间映射关系”的能力。然后通过设计“标签序列评价体系”给予模型识别反馈,并进行强化训练,使模型进一步具备“捕捉标签类别之间依赖关系”的能力。与当前流行的实体识别方法相比,REIN-NER方法既没有使用参数量庞大的预训练模型,也没有使用经典的条件随机场模型,仅仅使用长短期记忆网络以及强化训练机制就使模型拥有出色的表现。该方法在两个疾病名识别任务以及一个化学物识别任务上均取得了优秀的性能表现。本文提出了基于三元损失训练策略的关系抽取方法TL-BERT。该模型首先使用设计的三元数据生成规则从训练数据集生成三元数据。然后使用基于BERT的特征提取器从三元数据中提取句子级和实体级特征。最后基于句子级和实体级特征,计算三元损失和交叉熵损失来训练关系分类模型。与其他流行的关系抽取方法相比,本方法开创性的使用三元损失训练策略对模型进行训练,解决了“来自同一个句子但属于不同类别的实例难分类”的问题,提升了关系抽取的性能。该方法在蛋白质-蛋白质关系抽取(AIMed、Bio Infer语料)和药物-药物关系抽取(DDI-Extraction 2013语料)上均取得了优异的性能表现。
其他文献
随着生活中的信息数据量不断增长,获取完整有效的数据变得至关重要。但是由于现实世界中的网络存在各种各样的权限设置以及网络中个体的隐私保护需求,大多数从现实世界中收集到的静态网络数据是信息缺失的。然而,在不完整的静态网络中,仅仅基于部分已知的节点和边来恢复缺失的节点和边是非常具有挑战性的。针对现有的工作中存在推理精度差,适用性差,对网络拓扑结构利用不足,以及计算复杂度大等局限性,本文提出了循环注意力机
学位
通过应用程序编程接口(API)复用已有的软件框架或类库,极大地缩短了软件的开发周期,提高了相关从业人员的开发效率。但是由于软件经常会出现API误用的情况,API误用缺陷是软件bug的主要来源,API误用缺陷检测是保证软件质量重要的一环。与此同时,在真实工业场景下由于API调用的错综复杂,修复一个缺陷bug成本极高,API误用缺陷修复推荐能够帮助开发人员减轻工作负担,提升软件质量。正确的使用API需
学位
随着软件不断迭代发展,软件的结构会变得混乱,系统维护难度也随之增加,软件质量也会受到一定影响,软件维护成本随之增加。对于大型复杂软件系统,采用人工的方式对其进行重构难度过高,并且很难保证重构解决方案具有通用性。自动化重构可以降低软件维护成本且具有一定的通用性,其中基于搜索的软件重构方法是解决该问题最典型的方法之一。其中目标的选择对搜索过程起决定性作用,质量目标与非质量目标都是开发人员在重构时通常会
学位
随着无线电力传输技术(Wireless Power Transfer,WPT)的出现,能量发射器和接收器之间的电力传输方式突破原有限制,由原先的有线方式逐渐过渡到无线方式进行,进而产生了无线充电传感器网络(Wireless Rechargeable Sensor Networks,WRSN)的新型传感器网络架构。目前传统的WRSN领域工作主要集中在最大化网络寿命、优化充电效率和优化充电质量方面,而
学位
多模态聚类的目的是通过挖掘并融合多个模态的一致性和互补性信息来完成数据分组,已经引发了多方面多角度的探索。例如引入神经网络解决了数据特征提取的问题和使用成对约束或自监督学习等方法来指导多模态聚类。与此同时,针对多模态数据中部分实例缺失的情况,不完全多模态聚类的课题也被广泛研究,得到快速发展。尽管多模态聚类研究已经取得很大的突破,但仍存在一些问题有待解决。本文从三个角度入手,对深度多模态聚类进行研究
学位
我国矿产资源丰富,由于矿产资源的掠夺性开采和环境保护长期滞后于经济发展,矿产资源不仅促进了国民经济的发展,也带来了一系列环境污染问题。铊和钼是矿区污水中两种典型的阳离子和阴离子污染物,在国内外许多地区已发生多起钼、铊超标造成环境污染事件,其去除技术已引起广泛研究。与传统除钼、铊方法相比,吸附法因其操作简单、低成本、效率高且吸附剂可循环再生等优点引起广泛关注。但关于对水中阴离子和阳离子重金属污染物均
学位
随着垃圾分类的强制执行,垃圾分类回收系统也日益完善,垃圾被运往填埋场或者焚烧厂的途中会在垃圾中转站被压缩而产生压滤液,这部分垃圾压滤液污染物浓度高,不能随意排放。目前传统的处理方法还存在弊端,如压滤液中高浓度的氨氮容易导致生物处理中的微生物失活;物化法只能作为垃圾渗滤液的预处理和深度处理方法;联合处理工艺复杂,成本高。压滤液的水质复杂,处理难度较大,在考虑处理工艺的有效性和稳定性的同时,还要兼顾处
学位
钢管束混凝土组合剪力墙是由方钢管和U型钢管焊接,并在钢管内浇筑混凝土而成的一种钢-混凝土组合剪力墙,作为结构的主要抗侧力构件,它不仅具有较高的承载能力和良好的抗震性能,而且能够实现模数化设计、工厂化生产和装配化施工。本文在试验的基础上,对钢管束混凝土组合剪力墙的力学性能及其影响因素进行了对比分析,提出了低周反复荷载作用的恢复力模型及模型参数,根据恢复力模型绘制了滞回曲线,并与试验曲线进行了校核分析
学位
钼(Mo)是一种难熔稀有金属,也是动植物必不可少的微量元素之一,其广泛应用于冶金、制造业、农业、航天、医疗等领域。随着钼矿的大量开采,开采过程产生的废水、废渣以及尾矿处理不当,导致钼矿周围的地下水、地表水以及土壤等污染极为严重。钼在水体中主要是以钼酸盐(Mo O42-)的形式存在,而目前去除水中钼酸盐的手段主要有:化学沉淀法、吸附法、离子交换法、人工湿地法以及混凝沉淀法等。电絮凝(Electroc
学位
随着5G的快速发展,移动边缘计算已经成为新的计算范式,它将传统云的计算资源从中心云迁移到网络边缘上,移动设备可以将计算任务卸载到边缘服务器上以满足低延迟需求的应用程序。但是这种新的范式在上述计算卸载过程中引起了许多挑战,比如如何进行动态放置服务来维护移动用户感应延迟,以及如何确定计算卸载任务的分割数量来优化移动用户体验质量等。基于上述挑战,本文提出了一个多用户多边缘服务器的计算卸载模型,该模型同时
学位