基于少量标注数据的医疗命名实体识别方法

来源 :东华大学 | 被引量 : 0次 | 上传用户:kmyzkmyzkmyz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网医疗事业的发展,医疗的智能化、信息化成为发展趋势。电子病历存储了丰富的患者诊疗数据,是实现智能化、数字化医疗信息建设的重要基础。但是,大部分电子病历都以自然语言方式录入的医疗文本格式进行保存。想要从这些非结构化、冗余且复杂度极高的医疗文本数据中直接获取高价值的内容是非常困难的,同时也不能直接使用人工智能算法对这些医疗文本进行深一步的挖掘与分析。因此,电子病历的结构化问题成为人工智能时代研究的热点,其中命名实体识别是实现电子病历结构化的第一步。目前,随着人工智能的发展,越来越多的研究表明深度学习在实体识别任务中已经取得了不错的分类效果,但前提是需要大量的、标注好的数据作为深度学习模型的训练数据。在医疗领域,由于医疗实体自身具有专业性、不规范性以及结构复杂等特点,导致了医疗实体的数据标注需要医疗领域专家花费大量的时间和费用成本完成,因此基于少量标注数据的医疗命名实体识别成为了目前关注的问题。为了解决上述问题,本文研究了基于少量标注数据的医疗命名实体识别方法,主要包括以下两部分内容:1)提出了基于自训练学习的医疗命名实体识别方法在医疗领域,医疗文本中含有大量的嵌套实体和专业名词,对标注专家的专业水平要求较高,人工标注数据的成本大。本文首先通过基于少量标注数据用于训练初始分类器模型,该初始分类器模型对未标注数据进行预测,以挑选生成伪标签数据,从而充分利用未标注数据;然后提出了一种混合的数据增强方式,即使用伪标签数据和实体替换结合的方法进行数据增强;最后对于增强后的数据使用注意力判别器作为数据的判别模型,筛选出符合模型训练的增强数据用于模型再训练。最终实验结果表明,我们的方法的F1值最高为75.22%,大大的提高了模型实体分类性能,相比现有的自训练学习方法的F1值提高了10.19%。2)提出了基于多标准主动学习的医疗命名实体识别方法基于自训练学习的方法在一定程度上实现了少量标注数据下的医疗命名实体识别,但在实现过程中对于未标注数据的选择采用随机选择的方式,数据的整体利用率仍不够高。在实际临床上,可能存在某些病种(如恶性肿瘤、罕见病等)本身患者数目就比较少,采集到的总体样本数据相对也较少。因此,在自训练学习方法的基础上,提出了一种基于多标准主动学习的乳腺电子病历实体识别方法,该方法优势在于同等准确度的条件下所需要的总数据量相对于自训练学习模型更少。主动学习方法可以挑选出高价值信息的未标注数据进行半监督学习,通过选择策略挑选出最具有价值的样例交由专家进行标注以实现在同等准确度下花费更少的训练数据量。本文从训练数据量、句子标注成本和数据采样均衡性等三个标准确定主动学习选择策略,针对实体识别任务提出了更适用医疗文本的不确定性计算方式和句子标注成本度量规则,采用增量式训练,加快了主动学习过程中迭代训练的速度。该方法与基于自训练学习的乳腺电子病历实体识别研究方法相比,在达到相同准确度的前提下需要的数据量减少了约63.6%。
其他文献
任务型对话系统是人工智能领域的研究热点,其实用价值也颇受业界重视。流水线型对话系统是目前采用的主流架构,它将整个对话过程划分为自然语言理解、对话策略、对话生成等多个模块,其中用于识别语句中关键词的槽填充和用于语句中预测情感的对话的情感分析是自然语言理解模块的重要子任务,因此受到学术界和工业界的重点关注,而用深度学习建模槽填充和对话的情感分析是当前的主流方法。然而目前槽填充和对话的情感分析模型存在着
学位
复杂系统云仿真是利用云计算资源共享等优势为复杂系统仿真提供支持的新模式,具有实体规模大,交互复杂,依赖库多样等特点。应用封装可以降低应用部署的复杂度。准确的资源预测可以实现复杂系统云仿真应用最优性能。然而,目前的云环境下主流的封装技术依靠手动编写Dockerfile文件,导致封装效率低下,目前的资源预测技术没有考虑复杂系统仿真应用实体规模,时间同步等特征,难以准确预测应用所需资源,导致资源利用不充
学位
三维超声计算机断层扫描(Three dimensional ultrasonic computed tomography,简称3D USCT)在乳腺癌早期检测筛查及诊断等方面有很好的效果,有助于乳腺癌的及早发现与治疗,提高治愈机率。但在3D USCT系统中,换能器的延迟、位置偏差和温度误差等系统误差会影响到重建图像的质量,其中换能器延迟和位置偏差影响最大,故而需进行换能器的校正。论文基于与浙江衡玖
学位
流数据变化速度快,价值密度稀疏且只能单次访问的特性,导致难以对其价值进行有效评估。采样作为数据价值评估的重要手段,现有在全量流数据上采样会产生过多存储计算资源浪费,访问部分流数据的采样评估方法易丢失蕴含大量离散值的流数据的价值和信息。基于上述问题,如何高效精准的对流数据进行采样使得能够准确的评估其价值成为一个尚待解决的问题。本文针对此问题展开研究,主要贡献如下:首先,针对全量流数据采样产生资源浪费
学位
云计算由于其海量存储和计算而快速发展起来,为个人和组织提供了存储和计算服务。为了保护存储在云中的数据隐私,内容提供商通常会对其数据进行加密。然而云中存在许多数据共享场景,这种存储模式相应的增加了用户之间共享数据的困难。代理重加密是解决数据共享的重要技术手段,让云服务提供商充当代理方来转换密文。但当用户退出时,现有的撤销方案忽视了撤销的用户可能会解密撤销前访问的数据,这会导致内容提供商存储在云服务提
学位
近年来,三维网格模型分割成为计算机图形、图像学的研究热点,越来越多的研究者深入网格分割领域,促使分割技术不断发展,但现有的网格分割方法大多不能完全适用于不同种类的模型,这些三维分割算法或多、或少存在各自的分割缺陷。仅仅利用传统形状直径函数的三维分割算法,存在计算量大、无法较好的适应复杂模型等缺点。为了使三维分割能够较好的适用于不同类别的模型,提高分割速度、增强分割鲁棒性和提高模型分割准确度等,本文
学位
可达性查询是图上的基本操作之一,用于判断图中两结点之间是否存在可达路径。现有的可达性查询算法可分为两类,第一类是直接在原图G上构建索引来回答查询,但其查询性能会受图规模的影响。第二类是首先将原图G进行规约,得到规模较小的规约图Gr,然后在Gr上构建索引来回答查询。现有的图规约算法可以显著减小原图G的规模,但是无法保证规约图上的查询性能。本文针对现有方法存在的问题展开研究,具体研究内容如下。首先,提
学位
随着超级计算机的迅速发展和E级计算时代的到来,计算科学开始发挥越来越重要的作用。计算流体力学(Computational Fluid Dynamics,CFD)作为计算科学的一个重要分支,如今在航空航天航海等领域的应用也愈加广泛,其中包括国产大客机研制、载人航天与深空探测等国家重大工程。基于CFD开展相关设计与研发工作,首先需要对计算域进行空间离散,即网格划分。相比于结构网格和笛卡尔网格,非结构网
学位
知识图谱是一种典型的多关系结构,由许多实体和关系组成。现有的知识图谱大多都非常稀疏,还不够完整。因此知识图谱补全任务应运而生,旨在通过原有知识图谱中的事实对那些可能存在的隐藏关系进行预测。常见的知识图谱补全方法,采用嵌入表示学习的模型借助三元组中实体、关系嵌入表示向量的近距离假设对隐藏关系进行预测。这类方法针对封闭世界知识图谱补全能发挥出较好的效用,但是针对开放世界知识图谱中的新实体类型与相关关系
学位
无差拍预测电流控制(dead-beat predictive current control, DPCC)因其响应迅速而在电机控制领域具有较大应用潜力,然而受参数敏感影响,该方法鲁棒性不高。为此,文中提出一种结合参数自适应的永磁同步电机(permanent magnet synchronous machine, PMSM)电流无差拍控制方法,以解决无差拍控制在参数失调下的鲁棒性问题。首先,介绍无差
期刊