【摘 要】
:
中文医疗文本命名实体识别的研究对医疗信息抽取具有重要意义。然而,医疗领域的标注数据获取较难,致使中文医疗文本命名实体识别的发展一直受限于低资源问题。低资源意味着标注数据缺乏,会严重影响模型的性能和泛化性。为应对低资源情景下的标注数据缺乏难题,本文提出了两种中文医疗命名实体识别方法。主要工作如下:(1)提出了一种基于词典增强的自训练远程监督中文医疗命名实体识别方法(LSCNER)。首先,提出了一种基
论文部分内容阅读
中文医疗文本命名实体识别的研究对医疗信息抽取具有重要意义。然而,医疗领域的标注数据获取较难,致使中文医疗文本命名实体识别的发展一直受限于低资源问题。低资源意味着标注数据缺乏,会严重影响模型的性能和泛化性。为应对低资源情景下的标注数据缺乏难题,本文提出了两种中文医疗命名实体识别方法。主要工作如下:(1)提出了一种基于词典增强的自训练远程监督中文医疗命名实体识别方法(LSCNER)。首先,提出了一种基于自训练的实体高召回方法,该方法有效召回潜在的未标注实体;其次,提出了一种基于细粒度词典增强的打分和排序方法,该方法建模了医疗实体内部独有的结构,能将召回实体进行筛选,有效减少实体高召回方法得到的错误实体。此外,本文构建了一份中文医疗命名实体识别数据集CDD。实验结果显示,在本文构建的数据集CDD和公开数据集CCKS 2019上,相比基线模型,本文的方法将F1值分别提高了3.20%和5.03%。(2)提出了一种基于文本和标签增强的中文医疗命名实体识别方法(TLCNER)。该方法利用预训练语言模型和半监督学习的方法,从文本和标签两个维度进行优化。首先,提出了一种基于预训练语言模型的文本增强中文医疗命名实体识别方法,本文从网络上搜索了20万条医学文本,对公开的预训练模型继续预训练,做医学领域自适应;随后,使用两个公开数据集的文本进行数据增强,并继续预训练,做任务自适应。其次,提出了一种基于半监督的标签增强中文医疗实体识别方法,利用半监督学习方法对未标注数据进行处理,获得伪标签数据,将伪标签数据添加到原始训练数据中,提升了数据标签的多样性。最终,在两个低资源公开数据集上,相比BERT-base模型,本文的方法将F1值分别提升了2.68%和3.66%。
其他文献
学科竞赛是指在紧密结合传统课堂教学的基础上,以培养学生的学习兴趣、激发学生的潜能和促进学生的综合能力发展为目的,进行的一种特殊的考试,对提高学生的创新实践能力和推动人才培养等方面具有重要作用。近年来,各大高校均提高了对学科竞赛的重视,以学科竞赛带动创新创业教育深入开展,在教学模式、教育体系改革方面做了很多研究,但是在人才选拔方面的研究较少,很少考虑到成绩预测是一种优化人才选拔、提高竞赛成绩的方法。
超声流量计以其低压损、测量精度高、测量范围广等优点而被广泛用于能源结算、水利水电以及航空航天等诸多领域。超声流量计实际应用时,由于安装条件的受限,有时不得不安装在距离扰流件较近的地方,由此引起的测量管道内流场条件变化,不可避免地影响超声流量计的计量性能。本文针对超声流量计在典型扰流流场中的计量性能开展研究,具体研究如下:(1)典型扰流流场建模及验证。设计了右旋旋涡发生器、闸阀和速度剖面等典型扰流件
受摩擦力等因素的影响,汽车转向压力检测误差过高,提出一种新的汽车机械式转向系转向沉重故障智能诊断方法。在明确汽车机械式转向系转向沉重故障特性的基础上,设计故障智能诊断决策树算法,并构建故障智能诊断平台。实验结果表明,利用该方法检测的转向压力与实际差值较小,有一定的应用价值。
电大尺寸目标电磁散射与辐射的仿真技术一直以来是电磁计算领域的重点研究方向。其中,期望快速且准确地计算电大尺寸目标的雷达散射截面(RCS),并基于此完成对散射特性的分析。综合考虑目标的大电尺寸和大面元数,以及电磁波在目标结构间的多次反射效应,本论文采用弹跳射线法(Shooting and Bouncing Ray,SBR)结合物理光学法(Physical Optics,PO),即SBR-PO法的技术
随着一体化进程的加快,长三角地区资源的共建共享为高校名人档案融合提供了多方保障,本文从名人档案的现存状态和环境需求方面对融合的必要性进行阐述、从实施路径、制度、技术手段等层面分析融合的可行性;并对融合以后的价值体现进行探讨,重点提出了“名人档案数字化中心馆”的建设方案。
随着现阶段汽车市场的不断扩大,人们对于汽车机械维修保养的需求也在不断增长,促使汽车机械维修保养技术不断优化,在新时期呈现出新特征。由此,重点分析了几种常见的汽修故障出现的原因,并就汽车机械维修保养中的常用技巧进行深入探讨,同时提出汽车机械维修保养的有效对策,为汽车机械维修保养提质增效提供思路和参考。
近年来,全球安卓手机用户数量不断增加,庞大的安卓手机用户数量也吸引了海量开发者创造出数量可观的安卓手机应用。如何保证这些安卓应用的质量和可靠性是该领域的一个重要问题。目前主流的基于模型的安卓应用测试方法以基于FSM模型为主。FSM模型能够较好地为应用程序的控制部分建模,但实际的安卓应用中还包含变量以及对变量的操作。仅靠控制流信息建模会产生大量的不可执行测试序列,大大降低测试的效率和可信度。为了解决
制造业是一个国家经济社会活动的基础保障,而智能制造是实现制造业高速发展的关键。航空制造业作为国家级战略性产业,更加需要结合现代信息技术来提升制造过程的智能性与先进性。在航空制造车间中,生产管控系统及其核心排产模块充当着“指挥官”的角色,关键参数的感知与计算研究对生产管控工作及排产过程中有着非常关键的作用。然而随着信息技术的发展与人工智能方法的兴起,一些传统方法存在着效率低、准确率不足等问题。因此,
现如今科学技术的发展,让化工产品在人们日常生活随处可见。同时化工产品的出现也对人们的生活产生着重要的影响。在此背景下也促使化工企业数量增多,化工企业的规模越来越大。安全的化工生产过程,是化工企业需要保障的首要问题。近年来,国内外的化工事故频发。2019年3月3日5时10分左右,瓮福达州化工有限公司物流部磷酸灌装区内发生一起硫化氢气体中毒事故,造成3人死亡,3人受伤。2021年1月14日16时20分
P2Y12受体介导的血小板聚集过程对我们研究血栓类疾病至关重要,P2Y12受体拮抗剂作为新型抗血小板聚集药物受到了广泛研究。嘌呤核苷衍生物是一种可逆的P2Y12受体拮抗剂,具有抗血栓的药效,嘌呤骨架作为药效团中心是其生物活性的关键。本文对36种嘌呤衍生物及39种腺苷衍生物进行了三维定量构效关系(3D-QSAR)分析,其中包括Co MFA、Co MSIA及SOMFA分析,建立了可靠的计算模型,并进行