基于深度神经网络的医学命名实体识别研究

来源 :沈阳航空航天大学 | 被引量 : 0次 | 上传用户:chenlijuan1986
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
医学技术的高速发展产生了大量医学文本数据,其中蕴涵着大量的医学知识。随着信息处理技术在医学领域的深度应用,利用计算机辅助手段提取医学文本中的医学实体对医学诊断和研究具有至关重要的作用。目前,如何从海量的医学文本中有效提取有价值的医学信息,已成为医学文本挖掘领域一个重要的研究内容。医学命名实体识别可将医学文本中具有特定含义的实体,如疾病、药物、手术等进行识别和标注,为医学知识共享、辅助诊断、组建知识图谱、构建医疗信息系统等提供有效支撑。由于医学文本隐私性较高且包含大量医学专业词汇,这就导致出现了语料稀少、实体书写不规范、文本分布不均匀等问题,限制了医学命名实体识别的性能提升。针对当前医学命名实体识别任务存在的问题,本文主要做了以下几个工作:首先针对医学领域语料稀少和医学领域实体书写不规范的问题,提出了词融合的Ro BERTa医学命名实体识别模型。模型首先通过Ro BERTa语言模型获取文本字符嵌入表示,并依据词典,采用匹配赋权的方法获得词向量表示,然后将词向量融入到动态字向量中拼接得到最终嵌入向量表示,最后通过CRF解码预测最终序列标签。在Ro BERTa预训练模型中引入词典进行词融合,不仅避免了中文医学实体分词的错误,还解决医学领域语料稀缺的问题。本文在CCKS2019评测数据集上进行实验,结果显示,本文提出的词融合Ro BERTa模型提高了医学命名实体识别性能。其次针对医学文本中数据分布不均衡导致的语义提取不充分的问题,提出基于DBMA-Bi-LSTM-CRF的医学实体识别模型。该模型使用Bi-LSTM和CNN网络分别提取医学文本的全局和局部特征,并利用Attention机制对提取到的全局和局部特征融合,充分提取了文本语义信息,提高医学命名实体识别精度。实验结果表明,新模型的识别效果优于一些主流医学命名实体识别模型。最后,本文设计实现了一个医学命名实体识别系统,系统嵌入本文提出的医学命名实体识别模型。该系统可以方便的提取医学文本实体,为医学研究、辅助诊断、构建医疗系统等提供有效帮助。
其他文献
随着航空工业的迅猛发展,型材应用日益广泛。在生产中,型材零件的尺寸和特征位置往往需要检验,所以对型材检验模具的需求迅速增加。设计人员设计型材检验模具时,通常需要繁琐的手工频繁和经验判断去完成。在检验块绘制时,检验块尺寸位置要参考型材下陷和漏水孔特征,当上述特征较多时,需要人为地反复检查。这就造成了模具设计周期过长,效率较低的情况。因此,论文基于CATIA二次开发技术,研究如何对型材检验模具进行智能
学位
目前,铝/钢复合结构已应用于航空航天、汽车和船舶等制造业。然而,两种材料间较大的物化性能差异使得铝/钢接头的可焊性较差。搅拌摩擦搭接焊(Friction stir lap welding,FSLW)因焊接温度低在铝/钢异材焊接方面具有优势。对于铝上钢下的搭接配置,本课题基于搅拌针微扎透钢表面的思想进行2024铝/304不锈钢的FSLW试验,分析不同焊接参数下的接头连接质量,揭示超声和镍(Ni)中间
学位
未经妥善处理的污泥排放后会对自然生态环境造成严重危害,需采用环境友好的手段对其处理。本文用污泥与菱镁尾矿为原料协同煤矸石制备高强度轻质陶粒骨料。基于对三种工业固废的基本特性的研究以及热力学特性分析的结果,通过改变原料配比、预热温度、预热时间、烧结温度与烧结时间来研究不同烧制工况对陶粒材料性能产生的影响,通过正交实验探究最佳陶粒制备工况,最后对陶粒成品进行重金属固化特性以及环境安全特性的分析评价。对
学位
聚类算法作为无监督学习的代表算法被广泛应用于数据挖掘领域。传统聚类算法如划分聚类、层次聚类、密度聚类等在大数据时代对高维数据进行聚类时,聚类的时效性、准确性都不能很好的满足人们的要求,随着量子机器学习的不断发展,许多学者结合量子计算与传统聚类算法提出了新型量子聚类算法并取得了较大的进展。基于目前量子聚类算法研究现状,本文首先对量子聚类算法进行了分类,根据分析结果,重点针对k-medians和最小生
学位
机器翻译的任务是利用计算机将一种自然语言(源语言)的文本自动翻译成另一种自然语言(目标语言)。近年来,随着深度学习技术的突破式发展,神经机器翻译的性能取得了长足进步,成为了主流的翻译方法。翻译记忆是一个存储了专业译员翻译历史的语料库,将翻译记忆与神经机器翻译相融合,为机器翻译模型提供匹配度较高的参考译文作为指导,可以提升神经机器翻译的质量。目前通常采用先检索后翻译的两阶段融合方法,给定待翻译的源语
学位
为了解决果蔬产量逐年增大与劳动力不足之间的矛盾,针对果蔬收割机器人的研究具有重要意义。然而该机器人的研究难点主要是在果实的识别与定位上,因此本文将苹果作为研究对象,以双目立体视觉技术为基础,重点研究了苹果图像的分割、粘连及重叠类型苹果的识别、摄像机的标定以及苹果的空间定位技术,并解决了大部分苹果识别与定位问题。本文主要研究内容如下:首先,提出了一种基于最小交叉熵阈值的教与学优化算法(TL-MCET
学位
木质纤维素生物质通过热化学转化制备生物油是当前研究的热点。但生物油存在含氧量高、粘度大等油品低的问题,不能作为替代燃料直接使用。催化加氢作为生物油提质的一种有效方法,能够有效降低油中的氧含量。然而,加氢过程中气液传质阻力较大,需要消耗大量氢气,提高氢气的利用效率成为当前亟待解决的问题。氢气在溶剂中的低溶解度是造成加氢过程氢气利用率低的关键因素。而CO2在一定压力下更易溶于溶剂,能够形成一种具有超强
学位
随着人类的环境保护意识日益提高以及对能效的要求,对正处在高速发展阶段的四旋翼无人机提出了更高的要求。但是由于永磁电机存在固有齿槽转矩、稀土材料与控制芯片成本较高等缺点,制约了四旋翼无人机的发展,同时也因功率密度大、效率高等优点推动着技术革新。本文从电磁特性、损耗分析、热计算等角度设计了一个14极12槽的四旋翼无人机用外转子永磁电机(SPMSM),使得该电机在保证性能的同时,尺寸减小,质量降低。首先
学位
随着石化企业的迅速发展和石化产品产能的直线上升,人们对其安全生产的关注度日益提高。石化产品涉及到材料工业、农业以及交通运输等各个领域,在国民经济的发展中扮演着重要角色。而目前石油炼化企业生产所涉及的物料大多具有毒害性强、易燃易爆、扑救困难等危险特性,一旦发生事故将造成巨大的人员伤亡和财产损失。因此,本文对石油炼化企业进行风险识别、评估,设计了科学合理的保险方案并提出建议,这对降低石油炼化企业人员伤
学位
液-液两相流动广泛存在于液-液萃取、石油化工、直接接触式换热以及生物化学多相反应器等工业设备和过程中。深入了解液滴速度、形变、聚并、破碎等动力学特征,对提高过程效率,优化反应设备至关重要。屈服应力流体作为一种常见的非牛顿流体,被广泛应用于诸多的工业领域。屈服应力流体复杂的流变性质改变了液滴的运动行为,液滴在屈服应力流体中运动的相关理论仍有待完善。为此,本文借助实验手段和数值模拟方法,对屈服应力流体
学位