【摘 要】
:
生物医学命名实体识别,是生物医学信息挖掘的首要步骤。深度神经网络已经成功地应用于生物医学命名实体识别,但是深度神经网络模型的训练,需要大规模高质量的标注语料。人工标注语料的规模较小,难以训练获得高性能的深度神经网络模型。因此,自动构建大规模高质量的弱监督语料,成为提高生物医学命名实体识别性能的有效途径。(1)双角度弱监督语料的构建提出利用生物医学领域的大规模无标注文献和知识库,自动构建弱监督语料。
【基金项目】
:
国家自然科学基金(No.61772109); 教育部人文社会科学规划基金(No.17YJA740076);
论文部分内容阅读
生物医学命名实体识别,是生物医学信息挖掘的首要步骤。深度神经网络已经成功地应用于生物医学命名实体识别,但是深度神经网络模型的训练,需要大规模高质量的标注语料。人工标注语料的规模较小,难以训练获得高性能的深度神经网络模型。因此,自动构建大规模高质量的弱监督语料,成为提高生物医学命名实体识别性能的有效途径。(1)双角度弱监督语料的构建提出利用生物医学领域的大规模无标注文献和知识库,自动构建弱监督语料。首先,利用PubTator和知识库,分别从召回率的角度和精确率的角度考虑,自动构建弱监督语料。然后,为了全面地识别命名实体,基于召回率角度的弱监督语料,训练获得命名实体识别模型。最后,为了提高命名实体识别的精确率,基于精确率角度的弱监督语料,利用课程学习和遮掩操作,对命名实体识别模型进行进一步地精炼。在CDR和NCBI disease数据集上,该方法取得了比其他弱监督方法更优的性能,证明了本文自动构建弱监督语料方法的有效性,及双角度弱监督语料的互补关系。(2)基于标签迭代纠错的生物医学命名实体识别提出利用人工标注语料,对弱监督语料进行标签迭代纠错。首先,基于弱监督语料和人工标注语料训练获得标签纠错模型。然后,利用标签纠错模型,对弱监督语料进行标签纠错,获得标签纠错后的弱监督语料。由于弱监督语料和人工标注语料的质量差距较大,需要对纠错后的弱监督语料进行迭代纠错,获得高质量的弱监督语料。最后,分别基于双角度的高质量弱监督语料,训练获得两个命名实体识别模型,并利用知识蒸馏的方法,融合两个命名实体识别模型。在CDR、NCBI disease和CHEMDNER数据集上,该方法取得了最先进的性能,证明了标签迭代纠错能够不断地提升弱监督语料的质量,知识蒸馏有效地融合了双角度的命名实体识别模型。(3)基于伪平行语料纠错的生物医学命名实体识别提出利用人工标注语料和弱监督语料,构建伪平行语料,对弱监督语料进行一次性大量噪音纠错。首先,基于弱监督语料,利用课程学习,训练获得知识获取模型,用于识别人工标注语料训练集中的命名实体,获得训练集的弱标签。训练集的人工标签与弱标签平行,构成伪平行语料。然后,基于伪平行语料,训练获得噪音纠错模型,对大规模弱监督语料纠错,获得高质量的弱监督语料。最后,分别采用标签遮掩和Partial-CRF,融合双角度的高质量弱监督语料,训练获得命名实体识别模型。在CDR、NCBI disease和CHEMDNER数据集上的实验结果表明,该方法比基于标签迭代纠错的实体识别方法更优越,证明了利用伪平行语料纠错可以高效地提升弱监督语料的质量,标签遮掩和Partial-CRF能够有效地融合双角度的弱监督语料。
其他文献
生物医学作为一门前沿交叉学科,与人们的生命健康息息相关。近年来,随着生物医学领域的快速发展,生物医学文献数量也开始大幅度呈指数增长。隐藏在这些数据中的丰富信息,对生物医学领域的药物研发、疾病预防、数据库构建等都具有十分重要的意义。因此,通过文本挖掘技术处理和分析无结构化的生物医学文献,能够极大地推进该领域的研究发展。关系抽取作为文本挖掘技术的一个重要分支,能够自动地从非结构化文本中抽取信息。目前主
驾驶疲劳是导致重大道路交通事故的关键致因要素之一,相关工程技术研究人员已针对疲劳检测问题进行有较为广泛的研究,并取得了一系列研究成果。然而,由于不同驾驶人之间存在一定的个体特性差异,这为驾驶疲劳状态的准确、可靠检测带来了相当难度。为此,本文围绕驾驶人个体特性差异所导致的疲劳检测模型适应性不足问题,在对疲劳状态表征及检测机理深入解析的基础上,提出了一种基于深度网络的驾驶疲劳自适应检测方法,以有效解决
在目前的肠道疾病检查领域,传统的内窥镜检查因其高痛苦、高风险的特性已不能适应人们的需要。以非侵入式的胶囊机器人进入人体检查,正成为一种新型的检查方式。在实际的诊疗过程中,为了便于医生观察病灶,胶囊机器人的姿态反馈控制信息显得至关重要。现有的姿态感知方法多采用信号探测或传感器阵列测量的方式,这种方式极大地消耗了硬件资源并增加了成本,不利于胶囊机器人的推广使用。本文从胶囊机器人携带的相机入手,提出了一
疾病的诊断与控制、环境监测、药物开发和食品安全问题已成为当今世界广泛关注的问题。肆虐的新冠病毒感染人数达到一亿四千万,死亡高达三百万,日本政府宣布将开始向大海排放福岛核废水等等事件,对人们的生命健康和生产生活造成了严重的威胁和影响。当前迫切的需求推动着生物传感器不断发展,同时也对生物传感器提出了更高的要求。本文提出了一种基于超窄带包层模共振的高反射率FBG生物传感器。由于毫米波前向传播芯模和光纤光
无线胶囊内窥镜由于具有风险低,创伤小、方便快捷的优点已经得到广泛应用。随着无线内窥镜的发展,具有主动运动控制功能的胶囊机器人已成为临床医疗检查的发展趋势。目前已投入使用的无线胶囊内镜通常仅适用于对小肠病变的检查,对于能够在胃与结肠等宽裕环境内主动运动的胶囊机器人的研究仍然是个难点。本课题组研制的双半球形胶囊机器人采用三轴亥姆霍兹线圈作为驱动源,实现了旋转磁场强度与方向的任意调节,解决了姿态调整和位
在当前工程建设大发展的时代,水利水电、公共交通和能源矿业的建设及安全维护逐步进入日趋复杂,精准评估大型岩质边坡和地下岩体工程结构的稳定性是设计科学合理的支护体系、预防地质灾害和工程事故重要前提。天然岩体中节理裂隙发育,其变形、失稳很大程度上由岩石节理的变形、滑移和破坏控制,因此精准预测岩石节理的变形和破坏具有重大意义。当前理论模型的发展迅速,但是普遍面临样本单一,仅对实验样本具有较高的精度,缺乏可
小脑是人体神经中枢的重要组成部分,其在运动学习、平衡控制等方面发挥着举足轻重的作用。小脑的损伤会引起小脑性共济失调,对该疾病的治疗仍是临床上的一个难题。深入探究小脑的解剖学和生理学机理,建立具有生物可解释性的小脑计算模型,有助于改善我们对小脑运动控制机制的理解。现有的小脑计算模型主要集中在对完整小脑功能的描述,而并不关心模型是否与真实小脑的生物机制相一致,建立的模型过于抽象,难以建立网络层面的改变
风洞试验是研究汽车、飞行器等模型空气动力学的有效手段。在风洞试验中,模型姿态角的调整是通过其支撑装置的运动实现的,其控制精度直接影响试验结果的准确性。双转轴模型支撑装置能有效调整模型的迎角、侧滑角和滚转角,研发其控制系统对提高风洞试验的综合能力和试验效率有重要意义。本文完成了双转轴模型支撑装置控制系统的设计与实现。该系统通过各轴串联机构的运动实现模型迎角、侧滑角、滚转角的姿态控制。首先分析了双转轴
随着人们对健康医疗的重视,生物医学领域一直快速发展,生物医学电子文献作为最重要的资源之一备受关注,数据量又在成指数级增长,从海量信息中挖掘潜在知识信息,并将这些知识充分用于辅助医疗技术研究,对生物医学健康领域有重要意义。现存的数据大多为不规则零散的非结构化数据,如何高效地将大量非结构化数据转换成结构化数据,成为信息知识挖掘领域研究的重点内容。本文旨在利用文本分类技术和事件检测技术完成对生物医学领域
血管介入栓塞术是在医学影像设备的引导下,将栓塞剂经微导管有控制地注入到靶血管内,使之发生闭塞、中断血供而达到预期治疗效果的技术。氰基丙烯酸脂类栓塞胶因其快速聚合、高流动性、低粘度、低组织毒性等特性,常作为栓塞迂曲、缠绕血管畸形的首选液体栓塞材料。临床介入栓塞手术中,氰基丙烯酸脂类栓塞胶常与超液化碘油混合,通过控制混合比例提高栓塞胶的可操控性,用以不同部位的血管栓塞。当氰基丙烯酸脂胶-碘油混合物经微