【摘 要】
:
基于医疗数据构建医学智能系统是缓解医疗资源缺乏问题的重要手段,而医疗数据的形式以非结构化的文本为主,包括医学文献、病历文本等,这些医学文本中包含着大量与患者健康情况相关的医学知识,而医学术语正是医学知识最直接的体现。从医学文本中高效地将这些医学术语识别出来是保障医学智能系统高性能的一个关键因素,医学命名实体识别任务的目标正是从医学文本中提取出具有医学意义的症状、病史、疾病等。对于开放领域的命名实体
论文部分内容阅读
基于医疗数据构建医学智能系统是缓解医疗资源缺乏问题的重要手段,而医疗数据的形式以非结构化的文本为主,包括医学文献、病历文本等,这些医学文本中包含着大量与患者健康情况相关的医学知识,而医学术语正是医学知识最直接的体现。从医学文本中高效地将这些医学术语识别出来是保障医学智能系统高性能的一个关键因素,医学命名实体识别任务的目标正是从医学文本中提取出具有医学意义的症状、病史、疾病等。对于开放领域的命名实体识别,其模型的性能在BERT出现之后已经非常成熟了,但医学文本中语义关系会更加复杂,尤其在中文病历文本中,存在很多长度较长、书写不规范等加大识别难度的医学名词,另一方面,在医学文本中,医学术语往往存在嵌套和不连续等复杂情况,因此开放领域的命名实体识别模型很难直接用于医疗领域。相比一般连续命名实体识别,现有的对于识别医学嵌套实体、医学非连续实体方面的工作相对较少,且多数情况下是将嵌套实体、非连续实体进行单独地针对性的研究,但在真实文本中,含有非连续实体的数据集中往往同时存在着嵌套实体,因此,本文重新定义了一个广义的非连续命名实体识别任务,即将文本中的一般连续实体、嵌套实体、非连续实体都作为提取目标的命名实体识别任务。本文的主要工作如下:(1)标注了一套可用于非连续命名实体识别任务的中文的医学数据集。本文总结了命名实体识别在不同任务场景下常用的医学数据集,在总结时发现,缺少可用于非连续命名实体识别任务的中文数据集,因此在医生的指导下,本文基于真实的电子病历文本数据,利用BRAT标注了一套包含一般连续实体、嵌套实体、非连续实体的中文医学数据集。(2)提出了一个新的非连续医学命名实体识别基线模型。现有的用于非连续医学命名实体识别的传统模型不能有效识别非连续实体,本文从标签方案和引入标签纠正模块两方面改进现有模型,并将改进后的模型作为本文非连续命名实体识别任务的基线模型。(3)借鉴依存句法分析的工作,将基于超图的方法和基于转移的方法用于命名实体识别,得到两个既可独立识别一般连续实体、嵌套实体,又可同时识别多种类型的实体的命名实体识别模型。分别在对应的中英文医学数据集上进行实验,记录实验结果,并与基线模型作比较,进行实验分析。
其他文献
用羟基硅油控制硅橡胶制品的硬度甲基乙烯基硅橡胶是常用的一种热硫化型硅橡胶,其市售产品的分子量通常在40万一70万之间波动。由于硅橡胶胶料的门尼粘度随硅橡胶分子量的大小不一而高低不均,因而硅橡胶分子量的波动造成了其制品硬度的高低不等,影响了产品质量稳定...
随着经济社会发展及城镇化进程加快,越来越多的农村剩余劳动力从农业部门转向城市非农部门就业,工资性收入已经成为农村家庭重要的收入来源。因此,农民工就业的稳定性不仅影响到农民工个体收入水平的高低,也关系到农村家庭、社会的福祉。在过去几年的脱贫攻坚过程中,以就业扶贫的方式帮助贫困人口通过外出务工取得工资性收入是重要的扶贫措施。2020年,我国胜利地完成了消除绝对贫困的历史性任务。之后,党中央、国务院提出
良好的生态环境是人类生存和发展的基础,是最公平的民生福祉。面对日趋严峻的环境形势,为谋求经济社会持续发展,我国加大了环境规制力度,通过行政手段和市场机制,出台相关法规制度,约束市场主体排污行为。有效的环境规制政策能够减少环境污染,促进企业优化生产方式,创新生产技术工艺,进而改善环境质量。但是,环境规制会加大被规制企业的生产总成本。环境规制是政府为减轻负外部性而采取的手段,但当企业将更多生产性资源配
强激光场与原子分子乃至固体介质相互作用会产生频率为入射激光频率整数倍的相干辐射,即产生高次谐波。高次谐波是已知产生阿秒脉冲(1阿秒=1×10-18秒)的有效手段,同时高次谐波也为探测原子分子中的超快电子动力学行为提供一种有效的工具。在本学位论文工作中我们发展了基于量子化学计算分子波函数的强场近似理论方法,该方法可用于计算分子高次谐波产生,进一步地我们对非对称分子的高次谐波产生过程中的相位进行分解,
伴随现代信息技术和数字经济的快速发展,新业态、新模式、新技术层见叠出,我国生产性服务业与制造业的“界限”逐渐模糊,呈现互动融合发展趋势。我国虽为“制造大国”,但近年来呈现出“过度去工业化”现象,关键核心技术受制于人,并且相比于“制造强国”,我国仍处于全球价值链“微笑曲线”的低位。推动先进制造业和现代服务业深度融合发展,是促进我国产业迈向全球价值链中高端,培育若干世界级先进制造业集群的必经之路,是在
在互联网经济模式的影响下,零售行业得到快速发展,商业模式不断创新,自2019年起在中国进入加速阶段的会员制仓储超市也在这一趋势中不断竞争升级。本文在分析大型仓储会员店现状和面临问题的基础上,对山姆会员店在零售业态的转型、创新和本土化等方面的探索进行了解读,并总结了其启示意义。中国的零售市场正硝烟四起,会员仓储店应快速适应时代,不断探索创新,以质取胜、专注产品和服务,这样才能在不断新零售发展格局中站
超快超强激光的发展,使得强激光场与物质相互作用的研究成为可能,在这一基础上,科学家们发现了高次谐波的产生这一极端非线性效应。高次谐波最先在原子介质中被发现,经过几十年的研究和发展,如今原子高次谐波的产生机制已经有了非常丰富的理论基础。然而,直到2011年,研究人员才在固体中第一次探测到高次谐波的产生。随后人们对固体高次谐波的研究投入更多的关注,固体高次谐波的研究也逐渐丰富起来。固体高次谐波的产生可
自1960年第一台激光器发明以来,以激光为支撑的基础科学研究、技术开发和产业应用都得到了飞快的发展,光学迈入全新的激光时代。随着科学技术和应用的不断扩展,普通基模高斯激光光束难以满足科研和应用的需求。科学家发明了各种调控技术对光场进行多参量调控,包括振幅、偏振、相位和时间,生成了一系列新型的空间结构光场,并带来了一系列新颖的物理现象和效应。贝塞尔光束是经典而重要的无衍射光束之一,其显著特性是超长焦
近年来,生态文学创作愈加活跃。依托于文学地理学的相关理论,地域性研究正成为一种新的生态文学研究潮流。经过近三十年的探索与发展,四川生态文学不仅收获了丰硕的文学成果,还逐渐开拓出一条富有地域特色的发展之路。从初期王治安、李林樱的生态报告文学到以阿来为代表的少数民族生态文学,再到个人化的生态写作,四川生态文学一直在与时俱进。它不仅丰富了四川文学的创作内容,也在一定程度上影响了“文学以人为本”的传统创作
自中国大陆发现第一例HIV感染以来,HIV携带者始终作为社会边缘群体存在,尽管数十年来疾病治疗手段和效果都有了质的飞跃,相关的反歧视政策也实践落地,但HIV携带者身上的污名化烙印似乎始终难以去除。在疾病污名化的作用下,艾滋失学、艾滋失业等社会问题仍屡屡发生。大众媒介作为强有力的信息传播工具,在影响大众认知上发挥着塑造性的作用,大众媒介对HIV携带者媒介形象的构建深刻地影响着公众的认知,继而产生与H