面向生物医学文本的实体识别研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:syhappy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别作为自然语言处理领域的一项核心基础任务,是分析和管理海量文本信息的关键技术手段,在大数据时代具有重要的应用和经济意义。尤其是生物医学领域中,随着互联网的高速发展,大量相关的医疗文本数据以非结构化或者半结构化的形式存储于网络之上,并且这些数字化的信息中蕴含着巨大的社会价值。因此如何充分地从中挖掘出潜在的有价值信息,有效缓解信息严重过剩所带来的挑战,已经成为了信息科学领域的一个热门研究方向。本文主要研究基于深度学习理论从生物医学文本中识别实体信息,主要包括以下四部分内容:(1)对实体识别问题进行了建模和处理流程分析,同时结合生物医学文本的表达特点,提出了一种基于长短期记忆网络的多特征融合模型。在提出的模型结构中,输入特征主要包括三种:词表示、字符表示和词性表示,其中词表示由含有局部信息和全局信息的词向量组成,字符表示分别由卷积神经网络和长短期记忆网络编码组合得到。经过在JNLPBA和NCBI-disease数据集上进行实验,结果表明这种多特征融合的模型相比于同类方法效果更好,在两个语料上的F1分数分别为75.42%和86.96%,同时消融实验也证明了字符特征和词性特征对于性能的提升起到了关键作用,其中字符特征的加入对性能的影响最大。(2)将预训练模型应用到生物医学文本的实体识别任务当中,提出了一种基于预训练的多任务联合训练模型。与常规模型通常都是以单任务为训练目标不同,本文所提出的方法采用多任务联合学习的方式来构建模型,并且还创新性的提出了一种不同网络层之间动态加权的模型结构,而不是直接将模型最后一层得到的向量表征作为输出。测试结果表明,采用多任务训练的方式以及动态加权的结构在一定程度上对性能都有促进作用,在同样数据集上获得了76.57%和88.24%的F1分数,说明了这种基于预训练的方法在自然语言处理任务上有着很大的应用潜力。与此同时,通过对任务中出现的数据不平衡现象进行分析,采用标签平滑的方法对其进行优化,使得模型的性能指标在JNLPBA数据集上进一步提升了0.14%,达到76.71%。(3)分别从性能和时间角度对提出的两种模型进行了对比和分析,结果表明多任务模型在性能方面要优于多特征模型,其在两个数据集上的F1指标分别提高了1.15%和1.28%。而在时间方面,通过设计实验获得两者在相同数据集上的训练和推理耗时分布情况,发现多特征模型无论是训练时间还是推理时间都要远低于多任务模型,其在一个迭代轮数上的训练平均耗时为0.807分钟,相比于多任务模型的4.268分钟大幅减少。在推理耗时的实验中也呈现出一致的结论:平均预测一条样本的时间多任务模型是多特征模型的两倍,分别为45毫秒和22毫秒。由此可见,虽然基于预训练方式的模型在性能表现上要更优秀,但是其劣势在于时间成本较高,而多特征模型的优势则主要体现在训练和推理时速度快,耗时低。(4)鉴于目前在生物医学领域还缺乏简单高效的实体识别工具,还开发了一款轻量级的实体识别在线工具,可以快速的从给定文本中识别出其中所包含的疾病名称信息。整个系统基于Flask框架搭建,在实现功能的同时兼顾了操作上的简洁性和可维护性,可以作为相关研究人员的辅助工具从而提高工作效率。
其他文献
心电异常检测是一个典型的多标签分类问题,多通过为每个异常训练一个二分类器实现自动检测。由于异常(标签)数目多,不同异常间以及特征和异常间的相关性复杂,导致自动检测的效果并不理想。异常标签的频繁共现是标签相互关联的具体体现,为充分利用标签间的关联关系来提高异常检测效果,对基于频繁标签模式的心电异常检测方法进行研究,内容主要包括以下两个方面。一方面,注意到共享特征是标签频繁项的特征,用于区分不同的标签
学位
在突发事件应急管理的过程中,应急信息的重要性不言而喻。为提高突发事件中应急信息的高效利用,有必要提高全社会的应急信息协同参与度,尤其是公众在应急信息协同中的积极性。在突发事件场景中,公众作为承灾者掌握的应急信息更加准确、时效性更强,对于及时把握事件态势、制定正确的应急决策具有重要的价值。为促进公众更为积极地参与应急信息的协同活动,探究公众群体中应急信息协同的动态演化规律及其影响机制具有十分重要的意
学位
光刻和蚀刻工艺程序繁琐复杂,设备要求高,制备过程中产生较多废弃物,污染环境。印刷电子技术具有灵活、快速、高效、低成本等优势,具有广泛的应用前景。其中,喷墨印刷技术能够快速、高效地在柔性衬底上实现电极材料的图案化。本文首先讨论了银源、胺类等对喷墨打印电极特性的影响,优化得到了基于柠檬酸银且符合家用喷墨打印机要求的银基导电墨水。然后使用多种手段对银基导电墨水的稳定性、导电薄膜在柔性衬底上的成膜性,以及
学位
中央苏区是在第二次国内革命战争时期,基于赣南、闽西革命根据地而建立并发展起来的中央革命根据地。中央苏区的邮政事业是中国人民邮政的开端,是中国人民革命斗争的缩影。深入探究这一时期的邮政事业建设与发展,不仅有利于拓展中共党史、中央苏区史及中国通信史的研究范畴,而且能够为新时代中国邮政的建设与发展提供借鉴与启示。本研究主要运用文献研究法和学科交叉研究法,在已有研究的基础上,进一步探究中央苏区邮政事业。首
学位
我国经济高质量发展阶段,面对经济社会发展中不充分、不平衡的现状,必须要落实“共享发展理念”。作为战略性新兴产业之一,信息产业能够有效推动国民经济发展和社会进步。共享发展和大数据信息时代不期而遇,需要充分发挥信息产业对共享发展的促进作用。本文立足于信息产业对共享发展的影响效应研究。第一,对信息产业和共享发展进行水平测度,充分考虑影响信息产业的环境因素,使用三阶段DEA方法测算信息产业综合技术效率;按
学位
21世纪以来,随着质量在产品核心竞争力中的地位日渐凸显,如何控制和提高产品质量成为越来越多的企业关注的焦点。控制图作为质量管理中重要的工具之一,可以通过对生产过程实时监控有效提高产品质量,因而受到广大学者和企业产品质量监管者的青睐。常见的控制图中,应用最广泛的是Shewhart型控制图,但是由于其仅使用当前的样本信息,对于较小或者中等偏移的检测能力较弱。在一些现代化精密制造的行业,如半导体制造业,
学位
随着积极老龄化的深入推行,养老行业将数字化、智能化等互联网相关概念引入到老年人的衣食住行当中,促进老年人的智慧生活,其中智慧出行是老年人生活当中尤为重要的现实问题之一,然而目前市场上的数字出行产品忽略了老年人在实际使用过程中的生理器质性变化、情感真实需求、交互综合体验等因素,以老年人为中心的服务设计思维尚未完全形成。文章从积极老龄化理念出发,分析城市老年人智慧出行的现状,发现用户在使用出行APP过
学位
在“双循环”经济背景之下,传统的企业商业模式不能适应新时代的发展。企业间的竞争也日益激烈,因此商业模式的创新对企业的生存空间发展具有至关重要的意义。目前企业要适应紧张的国际局势,以及面临新冠疫情带给社会的巨大冲击,商业模式的创新显得迫在眉睫。传统的调查显示发现,我国三大产业之间存在融合的态势。近些年,随着网络经济的蓬勃发展,产业内部的整合现象越发的突出,三大产业间的壁垒愈发模糊。论文探讨了由于企业
学位
近年来由于新冠疫情,传统的纸质投票存在潜在的健康风险。相对于传统的纸质投票,电子投票不受空间的限制,便捷性显著提高,研究安全、公平的电子投票变得更加重要。在互联网环境中,现有的电子投票系统存在一定的安全漏洞,导致其可能遭受到恶意的攻击。现有的自计票电子投票方案可以不依赖中央机构,实现了更强的隐私保护和无争议性。但这种方案计算最终的结果时,需要所有投票人的密文相乘,最后一个投票人可以提前得到最终的计
学位
调制信号分类指识别和分类所有接收信号的调制模式,以保证能够准确地解调信号,从而判断发送信号的类型,该技术已经广泛应用于军用和民用领域。近年来,深度学习以其出色的数据表达能力被应用到通信领域,实现了调制信号自动识别和分类。现有基于深度学习的调制信号分类大多是基于中心式和去中心式,但这些方法都不适用于子网共存且数据类型不匹配的异构无线网络(Heterogeneous Wireless Network,
学位