【摘 要】
:
医疗搜索作为广大群众搜索场景下的刚需,是普通用户获取优秀医疗资源最为便捷的渠道。医药领域数据的爆发式增长给研究人员提供了丰富的知识,是重要的研究资源。医疗搜索的重点就是从海量庞杂的医药领域数据中快速高效地获取信息,而命名实体关系抽取就是文本数据处理工作中一项基础且重要的环节。在医药领域内,准确识别说明书中的禁忌症和适应症实体对于构建合理用药规则,构建完善的医药领域知识库有重要意义。但是,由于医药领
论文部分内容阅读
医疗搜索作为广大群众搜索场景下的刚需,是普通用户获取优秀医疗资源最为便捷的渠道。医药领域数据的爆发式增长给研究人员提供了丰富的知识,是重要的研究资源。医疗搜索的重点就是从海量庞杂的医药领域数据中快速高效地获取信息,而命名实体关系抽取就是文本数据处理工作中一项基础且重要的环节。在医药领域内,准确识别说明书中的禁忌症和适应症实体对于构建合理用药规则,构建完善的医药领域知识库有重要意义。但是,由于医药领域内实体的特殊性和复杂性,实体词大多较长且结构复杂,部分实体间存在嵌套关系,给领域内的实体关系抽取带来了很多挑战。本文以医药领域的实体关系抽取为研究重点,通过搭建领域预训练模型来充分学习医药领域数据的文本信息,针对禁忌症实体和适应症实体的抽取,分别建立了多头选择的联合模型和基于两层网络的层叠模型,主要工作包括以下三部分:第一,虽然BERT预训练模型吸收了语言学中的通用知识,在很多的自然语言处理任务上都有很好的表现。但考虑到普通语料库和医药语料库的语句信息有很大区别,为了充分利用医药领域文本数据中的专业信息,在下游的领域任务中发挥更大的作用,本文提出了针对医药领域的预训练语言表达模型Med-BERT。首先收集了近20亿条的医药领域文本,以BERT预训练模型的参数作为模型的初始化参数,在改进后的预训练模型中加入特征处理后的领域无监督语料继续训练。并且,考虑到BERT模型参数量较大,下游任务的训练时间较长,为了加速下游模型的训练,本文还在阿里巴巴达摩院提出的StructBERT的4层蒸馏模型上进行领域训练并得到Med-StructBERT。第二,对于禁忌症实体关系抽取任务,本文提出了多头选择模型,实现实体识别和关系分类的联合任务。模型分别以BERT等6个预训练模型作为词嵌入层,后接条件随机场用于识别命名实体的边界,并通过多头选择预测每个词向量的头向量和对应的关系。在本文的禁忌症抽取数据集上,多头选择模型相比基准模型可将F1分数提升超过3%,通过调整词嵌入层和文本特征处理能进一步将F1分数提升超10%。并且,基于4层Med-StructBERT的多头选择模型不仅在各指标上均优于12层通用的StructBERT模型,还将模型的训练时长缩短20倍以上。因此,对于实体关系联合抽取任务,当不考虑训练时长和计算资源时可优先考虑Med-BERT模型作为编码层,而当计算资源有限或对时间要求较高时,可以考虑使用4层的Med-StructBERT模型。第三,对于适应症实体关系抽取任务,由于存在较多的嵌套实体,传统简单的序列标注方法只能识别最外层的实体,无法顾及内部结果。为了充分识别实体的内部结构,提高复杂适应症实体识别的精度,本文设计了层叠模型,其中低层模型用于初步识别粗粒度的实体,并且为了更好地学习实体的边界,还修改了损失函数的计算方法,高层的模型则用于对复杂的适应症实体进行调整,识别实体的内部信息,通过排列组合输出最终的识别结果。在适应症文本上的实验表明,基于不同的预训练模型做编码层,模型识别的F1指标都超过了 80%,其中4层的Med-StructBERT因为引入了大量的医药领域数据能更好地学习医药文本信息,模型的预测精度甚至超过了所有的12层模型,考虑到Med-BERT的训练数据较少,模型训练不充分,这也表明对于复杂的实体,使用业务相关的语料继续训练对于模型的提升是非常有效的。因此,对于数据杂乱,嵌套命名实体较多的文本,更应该优先使用本文提出的基于4层Med-StructBERT的层叠模型。
其他文献
初中阶段作为毕生发展的一个关键阶段,承担着个体由童年期逐步向成年期发展的过渡作用,青少年期的初中生在生理及认知发展和社会性等方面都会产生巨大的变化。环境和社会适应的好坏会对包括同伴关系、学业成绩、自我认同等在内的整个青少年期的生活与学习产生影响,处理人际关系等社会问题的能力对个体而言显得尤为重要。社会创造性是在社会领域表现出的创造性,体现在个体的日常社会活动和人际交往中,其重要性不言而喻。因此,本
机关事务管理工作高质量推进是我们国家当前焦点工作之一,稳步推进机关事务管理法治化是治理模式迎合新时代、促进机关高效发展的新要求。依法行政有效深化、加快法治政府建设也能从机关事务管理法治化进程中集中体现,机关事务管理法治化是稳步推进依法治国具有实践意义的重要举措。2020年底,中共中央发布的《中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要》与《法治中国建设规划(2020—2
在金融市场定价理论中,资本资产定价模型(CAPM)一直都是起主导作用的资产价格文献。风险与预期收益之间的权衡一直都是金融学中最受关注的问题,近几十年来,左尾风险是否在确定预期回报的横截面方面发挥特殊作用的问题也一直受到金融经济学家的关注。风险规避的投资者要求以更高的预期回报的形式获得更高的报酬,以持有风险更高的金融证券。转换到左尾风险框架,在对预期收益相关高阶矩变量分布不了解的情况下,具有较高左尾
近年来,中国地方政府债务迅速增长,政府债务在补缺口、强基建和促发展等方面发挥了积极的作用,但由于规模增长快,债务风险不断累积,且越来越突出,已成为我国经济可能的“灰犀牛”。与此同时,地方政府债务扩张所产生的巨额资金需求可能会通过金融市场的传导影响公司部门的融资需求。全社会的资金资源在整体上是有限的,当地方政府的融资需求大幅上升以及地方政府的信用较好,银行会偏向选择地方政府,一定程度上挤占原本属于公
代谢组学是生物流体或组织中低分子量代谢物动态变化的量度。代谢组学研究的基本策略为基于高通量分析技术量测的高维数据的获得和基于化学计量学方法的代谢组学数据解析。此类数据通常具有小样本、高维、高噪和易含奇异样本的特性。化学计量学在代谢组学数据解析中的两项主要任务为识别各组之间的代谢差异(即模式识别)并筛选出表征各组之间代谢差异的潜在的重要生物标志物(即变量选择)。近年来,分析技术平台的不断发展导致生成
在金融市场中,波动率不仅是衡量风险的指标,它对衍生品定价和资产配置都至关重要,因而对于波动率的研究一直是金融研究领域当中的较为热门话题。在对波动率的研究上,一些学者采用了文本情感分析的方法,通过词频统计模型探究与波动率的关系。然而,词频统计模型因其无法联系上下语义的局限性,语义捕捉能力较差,降低对波动率的解释效力。此外,而在对波动率预测的研究上,之前的研究集中在对低频收益率数据拟合而成的GARCH
在语言学的定义里,新词是指一个最近铸造的发明词或者词组,可能来源于新事物的产生、方言的吸收、简略词汇、外来语等。当今互联网时代下,大量的中文新词会在不同背景的碰撞下产生并借助网络的力量迅速传播开来。由于中文里没有明显的界限符,所以在英文中不存在的分词问题在中文里却是很重要的一步。未登录词是影响分词准确率的重要因素,新的未登录词及其变体层出不穷,依靠人力去构建词库费时费力,因而使用某些方法让计算机自
在中央经济工作会议提出的“六稳”方针中,“稳金融”的底线是要求不发生系统性金融风险,并稳步推动金融市场的发展。商业银行作为核心金融机构,其信贷风险管理质量对金融市场的稳定有重大影响,特别是随着近年来中小企业的快速发展及其伴随而来的银行信贷资源需求与日俱增,中小企业的信贷风险管理逐渐成为商业银行信贷风险管理之重点。信贷风险评价体系作为商业银行信贷风险管理的基础性环节,直接关系到信贷风险管理质量。商业
近年来,随着深度学习算法的效果变得越来越好,许多学者开始着眼于深度学习算法的稳定性。其中的一个方向叫对抗样本。对抗样本是指在原始数据上添加一个特定的噪声(噪声的比例越小越好,能被模型识别而不被人眼察觉)使得损失函数最大化,所形成的输入样本,会导致模型以大概率给出一个错误的结果。对抗样本的生成又被称为对抗攻击。现如今,深度神经网络已经成为了人们生活中不可或缺的一部分,人脸识别、语音转文字等都是日常生