面向中文电子病历的命名实体识别方法研究

来源 :浙江科技学院 | 被引量 : 0次 | 上传用户:falaong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
临床电子病历中包含了丰富的医疗信息,利用命名实体识别技术处理电子病历可以获得重要的医疗信息,医疗信息可用于构建医学语料库或知识图谱,进而辅助医生进行临床决策和智能诊断。中文电子病历命名实体识别是指从电子病历临床文本中识别出医疗领域相关的实体名称。在电子病历命名实体识别的发展过程中,早期使用的是基于规则和词典、机器学习的方法,随着词的向量化表示技术和深度学习技术的发展,基于深度学习的神经网络模型被广泛应用于命名实体识别任务,神经网络模型需要使用大量的标注语料集进行训练,以此来充分学习文本的特征。现存的大规模中文电子病历标注语料集稀缺,医疗语料包含大量的专业词汇,使用通用领域命名实体识别(Named Entity Recognition,NER)模型来执行中文电子病历命名实体识别任务时,识别效果差强人意。针对上述问题,本文研究在中文电子病历标注语料匮乏的情况下,如何提升中文电子病历命名实体识别任务的效果。本文对于医疗电子病历命名实体识别的研究工作和成果如下:(1)针对医疗文本包含众多专业术语,通用领域NER模型在中文电子病历实体识别效果不佳的问题,提出了一种基于部首特征和词汇增强的NER模型。该模型利用卷积神经网络捕捉医疗文本字符的部首特征,利用平格变压器(Flat Lattice Transformer,FLAT)进行词汇增强。本文设计了一种交叉变压器(Cross-Transformer)挖掘不同特征的互补性,Cross-Transformer利用多模态协同注意机制交叉融合词汇特征和部首特征,有效地提升了NER任务的效果。(2)针对中文电子病历标注语料规模偏小且无法直接合并不同数据集,NER模型无法获得足够的语料进行训练的问题,设计了一种基于多任务学习的NER模型,该方法利用多个相似领域的标注语料并行训练,通过共享医疗文本语义特征来共同提升多个任务的效果。本文提出双向多单元GRU(Bi-directional Multi-cell GRU,Bi Mc GRU)来学习不同医疗数据集的共享特征,并设计了2个辅助任务来提高NER任务的实体识别准确率。(3)针对中文电子病历标注语料稀缺,海量的未标注医疗文本中的医疗信息未能充分利用的问题,设计了一种基于半监督学习的NER模型。该模型利用大量医疗语料训练BERT模型和双向语言模型,获得适合中文医疗文本的字符向量表示和字符的上下文语义特征,引入词汇信息来判别实体边界。此外,该模型将自举算法结合到NER任务中,通过预测医疗文本获得置信度高的新标注语料,将新标注语料合并到初始语料后对模型进行迭代训练。使得模型的实体识别性能显著提升,标注语料的规模扩大。
其他文献
对于0<p≤∞,-∞<α<∞,定义对数Hardy-Bloch型空间BHp,α为由所有在单位圆盘D上解析且满足的函数f所组成的集合.该论文的第一部分主要讨论了对数Hardy-Bloch型空间BHp,α与Hardy空间Hp或是与Dirichlet型空间Dp-1p之间的关系.在研究函数空间关系的过程中,也得到了当1<p≤∞时,函数空间BHp,α中缺项级数的一种等价刻划.该论文的第二部分讨论了一种矩阵算子
学位
微分方程分支理论在应用数学领域及生活中都有许多应用,分支问题不仅存在于连续动力系统中,在离散系统中也存在并且有着更丰富的动力学行为.本文主要研究两类离散系统的分支问题,主要内容如下:第一章主要概述了本文研究的背景,意义及所做的主要工作.第二章介绍了离散动力系统的相关基础知识.第三章用半离散化方法离散一个已知连续系统.该系统的离散版在已有文献中尚未被研究过,我们对系统的离散版进行了研究,给出其平衡点
学位
众所周知,Marcinkiewicz积分算子及其交换子在调和分析中起着重要的作用,从Marcinkiewicz积分算子中也衍生出一系列Marcinkiewicz型积分算子及其交换子.本文将在前人的基础上主要对参数型Marcinkiewicz算子及其交换子在非齐性空间下的有界性进一步研究.本文共有五章组成.第一章为引言,主要介绍了若干Marcinkiewicz积分算子及其交换子在不同空间上有界性的国
学位
目的:针对华中科技大学同济医学院附属同济医院(以下简称我院)历年来医疗不良事件及药品不良反应上报情况,建立与我院实际医疗工作契合的高警示药品目录及警示内容,加强高警示药品临床合理应用。方法:根据美国医疗安全协会(ISMP)公布的高危药品目录、中国药学会医院药学委员会推荐使用的高危药品分级管理策略及目录等资料,查阅药品说明书、相关临床指南,结合文献记载的高警示药品用药风险案例、中国裁判文书网高警示药
期刊
装配式结构体系由于诸多明显优势在“建筑工业化”进程中广泛推行。然而由于混凝土复杂的材料特性,叠合构件先、后浇筑混凝土的接触面不可避免地存在粘结缺陷。当前学术研究中多假定叠合面粘结完整,较少关注叠合面粘结缺陷带来的危害,因此有必要研究叠合面缺陷对叠合构件力学性能的影响。本文在前期大量的模拟试算的基础上,首先开展了对带缺陷T形截面钢筋混凝土叠合梁在单调荷载作用下的静力加载试验,并通过有限元软件ABAQ
学位
图计数问题在很多方面有应用价值,特别是在生物领域中.在图论中,典型的子结构计数问题包括生成树计数问题、支配数问题、匹配数问题.然而,对于一般图而言,图的子结构计数问题是困难的,甚至是NP完全问题.因而,具有特定结构性质的子图计数问题的研究具有非常重要的意义.本文主要在子图计数以及极端图的刻画方面做了研究.在子图计数方面,我们确定了最多四条边和最多四个点的所有子图的计数公式,并给出了子图计数的两个应
学位
玻色-爱因斯坦凝聚体中原子的相干性与激光相似,能够为高精度的干涉测量提供良好的相干原子波源。玻色-爱因斯坦凝聚体中原子之间存在着非线性相互作用,可以通过它来产生自旋压缩态。自旋压缩有着自身显著的优势,譬如自旋压缩参数在实验上易于测量,而且它在提高测量精度方面具有广阔的应用前景。除了在量子信息领域的应用外,压缩还被广泛地应用在光谱学研究。而以往的工作主要集中在压缩态的性质,如果要应用于提高精密设备(
学位
随着我国高速铁路事业的快速发展,对牵引供电系统提出了更高的监测要求。受电弓是高速铁路列车供电系统中关键的部件,其发生损伤和故障都会严重影响高速铁路列车运行的安全。列车长期运行过程中,因弓网接触不良产生的电弧以及受电弓形变导致的结构异常都是重点检测对象,而传统检测方式无法满足在线监测受电弓的要求。针对高铁受电弓电弧及结构异常的检测问题,本文提出了基于深度学习YOLOv3目标检测算法和图像处理技术的检
学位
本文主要致力于系统研究多复变双全纯映照一些主要子族的Fekete-Szeg(?)不等式.全文共分四章.在第一章,我们主要介绍Fekete-Szeg(?)不等式的研究背景以及相关问题的研究,同时给出本文所用到的一些基本知识和符号.在第二章,我们考虑在零点阶数的情况下,得到了在复平面单位圆盘上凸函数精细的Fekete-Szeg(?)不等式,然后将此结果推广到多复变数空间,建立了B型准凸映照(A型准凸映
学位
角位移测量是计量技术的重要组成部分,广泛应用于各项工业生产、机械制造以及科研测试等领域。随着科学技术的进步,人们对于测角技术高精度高分辨力的要求日益提高,尤其是微小角位移测量。光学方法相对于其他测角方法具有非接触性,高精度,实时动态测量等优点,备受人们的关注并得到迅速发展。提出了一种基于最小二乘拟合波矢估计的角位移测量方法。该方法利用全息理论和采样定理二次曝光记录两幅全息图,通过对全息图中测量光相
学位