【摘 要】
:
生物医学命名实体识别旨在从海量非结构化文本中自动抽取疾病、基因和化学药物等实体提及,是许多下游自然语言处理任务的基础。目前基于深度学习的BioNER方法通常需要大量的训练数据。而受生物医学领域高度专业性的限制以及研究人员在道德伦理、数据隐私等方面的考虑,BioNER数据集的规模远小于新闻等通用领域NER数据集,这极大限制了模型的识别效果。与以往研究集中于如何让模型更好的利用词级别信息不同,本文提出
论文部分内容阅读
生物医学命名实体识别旨在从海量非结构化文本中自动抽取疾病、基因和化学药物等实体提及,是许多下游自然语言处理任务的基础。目前基于深度学习的BioNER方法通常需要大量的训练数据。而受生物医学领域高度专业性的限制以及研究人员在道德伦理、数据隐私等方面的考虑,BioNER数据集的规模远小于新闻等通用领域NER数据集,这极大限制了模型的识别效果。与以往研究集中于如何让模型更好的利用词级别信息不同,本文提出了一个基于多任务学习的BioNER模型。该模型可同时支持分类、实体识别、问答等多个任务,在不引入外部数据的前提下,我们通过设计多个辅助任务来充分利用数据集本身隐含的粗粒度信息,进而提升BioNER性能。另一方面,针对目前大多数BioNER方法未考虑领域知识的问题,本文还初步探索了将BioNER转换为机器阅读理解问题,通过精心设计的问答对来引入先验知识。此外,目前大多数神经架构BioNER系统将独立的句子视为其训练单元,而不考虑上下文信息,该类方法往往存在标签不一致的问题,即同一文档中所含的不同句子,其相同的实体提及被错误识别为不同标签。为了解决该问题,本文提出了一个基于动态缓存的BioNER模型。该模型使用缓存结构记忆历史隐状态,并通过一个上下文门控结构和多头注意力机制进行跨句建模。为了动态更新缓存我们设计了一个辅助任务和打分函数来定量衡量不同句子所包含的历史信息大小。本文采用当前最先进的预训练模型BioBERT作为基线系统,并在三个公开的BioNER数据集上进行了实验。其结果表明,引入句内粗粒度信息的模型能分别取得0.40,0.37和0.91的F1值提升,引入先验知识的模型能分别取得的F1值提升0.46,0.30和0.43的F1值提升,而引入句间信息的模型能分别取得0.30,0.53和1.08的F1值提升。
其他文献
本文回顾了中国汽车工业七十年来市场结构的纵向变化,并横向与汽车强国美国、日本等进行比较,发现我国汽车行业存在市场集中度低、规模经济不显著等结构性问题。从欧美、日韩等国的经验来看,汽车产业兼并重组是势在必行的,但另一方面由于汽车产业对国民经济影响巨大,其产业链又非常长,容易在不同的环节产生垄断行为,因此,汽车生产企业的合并一直都是反垄断调查的重点领域。基于以上几点考虑,本文收集了 2017年9月到2
背景 骨关节炎是中老年人常见的慢性病,严重影响中老年人的生活质量。在社区开展骨关节炎的疾病管理有利于资源配置的优化和提高疾病的整体防治水平,但目前骨关节炎的管理存在诸多问题,效果不佳。目的 分析目前国内外社区骨关节炎的管理情况和策略进展,比较其优缺点,为我国社区骨关节炎管理提供更为优化的策略,以改善骨关节炎患者的诊疗效果和预后。方法 于2020年10月至2021年1月,在中国知网、万方数据知识服务
坚持创新驱动发展战略,增强自主创新能力是提升我国综合国力的关键。作为影响区域创新能力的重要方式,产业集聚对于引领城市创新、实现经济高质量发展具有重要意义,而现阶段我国各个城市的创新能力和产业集聚程度存在较大的差异。本文首先围绕产业集聚与城市创新能力展开,利用我国266个城市2009-2016年的数据计算并分析专业化、多样化集聚和城市创新能力的现状。其次,随着我国城市化的步伐不断迈进,人口、资源在城
在计算机视觉领域,近年来有一类被称为人脸正面化的任务受到了广泛关注。人脸正面化问题定义如下:给出侧脸的图片,通过某种手段获得对应的正脸图片。这项工作在许多领域,例如:提高人脸识别准确率、嫌疑人画像生成等。目前大部分人脸正面化方法都仅能使用包含侧脸-正脸对的有标注图像数据集(通常来自Multi-PIE数据集)进行训练。这样的数据集构成,导致训练出的模型缺乏在不受控环境下的通用性。与此同时,另一类在非
红外和可见光图像融合在民用监控、灾害检测、军事识别等领域具有举足轻重的作用。然而由于红外图像中的热辐射目标尺度变化大,较为模糊,同时可见光图像受天气、低光照等影响,目标成像质量较差,因此红外和可见光图像融合是一项极具挑战的任务。针对红外热辐射目标尺度不一,可见光目标成像质量变化较大的情况,本文提出基于多尺度分解特征选择的无监督红外和可见光图像融合网络,并创新性提出分量重构、分割约束假设,着手解决融
教育期望是指个体对未来在学业上取得何种成就的期待和愿望,相关研究表明,个体早期在学业阶段的教育期望对其当前的学习成绩以及未来的教育获得具有重要的影响。本文使用中国教育追踪调查基线数据,依据期望价值理论,一方面从家庭、学校及个人因素三个方面对全国范围内的七年级和九年级学生的教育期望进行了研究。研究发现,首先,亲子关系会影响七年级和九年级学生的教育期望,具体而言,学生与母亲的关系越好,会对他们的教育期
该文作者以青禾美育研究室为研究对象,探究如何解决该类美育机构发展中存在的问题,希望为美育项目的开展提供理论支撑,增强美育项目的有效性和创新性,助力该类机构的可持续发展。
全球变暖已成为全世界共同关注的话题,“碳中和”和“碳达峰”这两个词汇也在我国2021年的政府工作报告中多次出现。企业作为经济社会发展的重要组成部分,是温室气体排放的主要来源。我们将企业碳信息披露作为企业减少二氧化碳排放这一行为的观测窗口。如果证实了高质量的碳信息披露可以降低企业的资本成本,可能会为企业积极采取碳减排行动,进行碳信息披露提供内在动力。本文主要研究了企业的碳信息披露与企业资本成本之间的
自1978年实行改革开放以来,我国的经济迅速腾飞,对外贸易量也节节攀升,改革发展成果有目共睹。根据国家统计局于2019年发布的报告显示,自1949年新中国成立至今,我国国民经济持续快速增长,经济总量不断迈上新台阶。其中,在1979年到2018年短短39年间我国经济年均增长9.4%,远远超过同期世界经济的增长速度。然而在为骄人成绩而自豪的同时,须知我国的高速发展是建立在牺牲资源环境为代价的基础之上的
劳动力要素对中国经济增长的影响越发受到人们关注,近年来大多数研究主要基于人口总量、劳动力数量和人口老龄化等因素展开讨论,而人口内在结构中劳动年龄人口比例和劳动力资源使用效率如何持续影响中国经济增长的未来发展是更需要深入研究的问题。近年来不断调整的生育政策,充分反映出中国目前面临着人口红利逐渐消失和人口年龄结构老化等诸多问题,与此同时,劳动参与率逐年下降,经济增长速度持续放缓,社会劳动力供给受到严重