【摘 要】
:
命名实体识别是指识别出一段文本中具有人名、地名、专有名词等特定含义的实体。中文命名实体识别任务是自然语言领域的基础任务,是许多上游任务的基石,而医学文本是中文命名实体识别的一个非常重要的领域。本文就医学文本命名实体识别中存在的嵌套实体识别难的问题提出了一些有效的解决方案。对于命名实体识别,业界通常采用序列标注的方法来识别实体。对于非嵌套实体这样做是方便且有效的,但是对于嵌套实体而言,会出现一些问题
论文部分内容阅读
命名实体识别是指识别出一段文本中具有人名、地名、专有名词等特定含义的实体。中文命名实体识别任务是自然语言领域的基础任务,是许多上游任务的基石,而医学文本是中文命名实体识别的一个非常重要的领域。本文就医学文本命名实体识别中存在的嵌套实体识别难的问题提出了一些有效的解决方案。对于命名实体识别,业界通常采用序列标注的方法来识别实体。对于非嵌套实体这样做是方便且有效的,但是对于嵌套实体而言,会出现一些问题,比如难以选择有效的数据标注方法、模型训练复杂度变高、模型预测效果差等问题。于是本文受问答系统的数据集构造和问题预测的启发将问答系统中的方法迁移到命名实体识别领域,通过预测实体的开头、结尾位置以及配对关系来识别相应的实体类型及实体边界。本文提出的BERT-SDOI-SAN-MRC-MRC模型在BERT-MRC模型的基础上,嵌入了能够从冗长医学文本中忽略噪音而能提取到有效信息的SDOI-SAN(基于句法依存关系的自我注意力网络)模块,使得模型能够学习到更深层次的句法和语义信息,除此之外,在MRC模块中对匹配规则作了进一步优化。由实验结果可知,本文提出的模型在损失部分训练速度的情况下对嵌套实体和非嵌套实体的识别能力得到了进一步提高。除了模型构造层面的尝试,本文还在BERT模型的掩码方法和NSP任务去留上做了一些有益的尝试;用基于动态规划的长文本分割方法代替模型输入的切割长文本方法以更好地适应模型输入,最大化保留句子信息和实体不断裂;通过在BERT输出中整合字音字形信息来扩充语义信息;通过修改损失函数来减少数据不平衡带来的不利影响,这些方法对最终的实验结果都有一定的促进作用。综上所述,本文基于BERT方法对医学文本的嵌套实体问题尝试了多种方案,相比业界常用的基准模型,本文提出的BERT-SDOI-SAN-MRC-MRC模型在精确匹配的精确率、召回率和F1值上提升巨大,相较基准模型在F1值上提升了9.3%。
其他文献
随着人工智能技术的逐步发展,以及围绕图像的深度学习体系的不断完善,深度学习在图像分类领域中愈发发挥着无法替代的角色,其应用范围更加广泛,过往的难题也更易解决。依托过去的技术,实现光伏行业中光伏电池片的缺陷自动分类极为困难,现借助深度学习中的卷积神经网络算法,该难题有望实现落地。光伏电池片的缺陷分类是对电致发光原理下的光伏电池片图片进行分类,卷积神经网络算法能够深度挖掘图像特征,分析以及学习。通过实
随着互联网技术的飞速发展,互联网金融对于传统金融市场的冲击也越来越猛烈,传统金融机构在产品营销方面面临的压力也是与日俱增,如何进行个性化营销成了亟需解决的问题。目前针对个性化推荐,金融机构使用的模型方法还较为简单,较传统营销方式效果提升不明显,故本文基于金融业务,提出了一套推荐方法,该方法能够很好地捕捉到用户的真实喜好,从而做到个性化推荐。它通过利用用户的历史购买记录,生成金融理财产品的向量表示与
大数据时代,随着技术手段不断进步,海量数据不断涌现。分子生物信息学领域的微阵列数据,网络购物的用户行为和交易数据,信息化金融市场的交易数据等等,这些庞大的高维数据给传统分析的低维数据数据分析方法提出了挑战,也推动了多重假设检验理论的应用和发展。随着生活水平的提高,人类寿命不断延长,癌症已经成为危害人类健康的头号敌人。而多数癌症患者早期大多性状不明显,且同一类癌症往往性状表现也不尽相同,如何从分子水
随着长三角一体化发展上升为国家战略,党和国家对长三角区域产业协同发展提出了更高的要求,这对长三角三省一市而言既是一次难得的机遇,同时又面临着前所未有的挑战。长三角地区如何立足自身资源禀赋,形成区域产业分工协作、优势互补的发展格局,打造我国强劲活跃增长极,引领全国高质量发展,成为了一项极具现实意义的时代课题。鉴于此,本文尝试从区域间产业关联的视角,通过编制长三角地区间投入产出表,对长三角地区间的产业
疫情之下,全球金融市场进入大波动时代,各国金融调控政策、突发事件层出不穷,例如美联储无限量QE、欧央行7500亿复苏基金、中美关闭使领馆、阿塞拜疆和亚美尼亚爆发空战...如何智能监控全球舆情,从而最快速地做出反应、最大可能地规避风险,就成了一项特别重要的工作。自然语言处理技术作为一种新兴技术,在发展过程中,便于金融产生了联系。在《全球金融科技权威指南》一书中提到了Econob公司,这家做自然语言处
一个准确的电力负荷供应决策对于电力系统来说至关重要,而其中最为关键的就是对电力负荷的预测。而电力负荷日峰值的预测是其中一个重要指标。在目前的研究中,研究者们往往侧重于提高电力负荷整体的预测精度,而预测的稳健性一直被他们所忽视。在建立模型的过程中,我们往往会利用模型选择法来选择某一“最优”模型作为后续预测的模型,而人们却忽视了模型选择过程中的不确定性。模型平均则是用来解决以上问题的一个有效办法。它避
基于深度学习的、与年龄相关的人脸图像分析已经成为计算机视觉领域的一个重要研究内容,在众多深度神经网络模型中,生成对抗网络是最具魅力的模型之一,它强大的生成能力让我们可以完成许多有趣的事情,例如图像风格迁移、文本到图像的合成、图像超分辨率、人脸衰老图像生成、图像修复等。人脸图像衰老合成作为一个应用范围非常广泛的研究方向,包括追捕通缉犯、寻找走失儿童、自动升级职员数据库、提高人脸识别系统的鲁棒性以及科
近年来,随着全球性的经济发展以及世界各地区的经济增速和动能的衰弱,以及全球性的债务水平的升高以及金融市场的局部动乱等一系列问题的日益加剧,资本直接进行的投资活动也略显较为低迷。尤其是2020年新冠病毒疫情爆发以来,美国、欧洲和其它许多国家政府不尽如人意的处理,导致投资者对经济发展形势进一步看衰,全世界范围内的经济十分不稳定。在此背景下,黄金和许多其它虚拟货币的价格均出现了较大幅度的上涨,加剧了相关
线性双自回归模型(Linear double autoregressive(DAR)models,LDAR)可以用来很好地拟合厚尾数据,它的条件均值和条件标准差部分均采用了线性结构,其模型结构使其更加具有稳健性。目前,线性双自回归模型已有的估计方法是由Zhu et al.(2018)提出的双加权分位数回归估计(DWQRE),最优DWQRE估计量的渐近方差在特定的条件下可以达到CR下界,该估计量的渐
在社交媒体高速发展的今天,网络上的社交文本形成了一个极具价值的文本库,尤其是对于美妆品牌而言,中国市场的美妆行业近几年正在急速扩张,其中新模式社媒营销起了很大的推动作用,比起其他行业,美妆行业是较早应用互联网技术进行社会化媒体营销的行业之一,因此社交文本成了该行业一个很重要的信息来源。本文旨在通过分析社交媒体平台中消费者关于美妆品牌的真实评价,提取合适的关键词进行情感分析、IPA分析及共现分析,使