【摘 要】
:
随着互联网技术和生物医学领域的不断发展,能够在线获取的生物医学文献数量增长迅速,这些文献中往往蕴含着大量有价值的医疗保健信息和生物医学数据,是该领域研究工作中十分宝贵的资源。作为信息抽取的核心子任务,关系抽取可以检测出实体之间在无结构化或非结构化的自然文本中所表达的语义关系,对于推动生物医学的发展具有重要意义。生物医学领域的有监督关系抽取通常受限于人工标注数据集的规模和成本,难以满足深度学习方法对
【基金项目】
:
科技部重点研发计划——“疾病研究精准医学知识库构建”(课题编号2016YFC0901902,2016-2021);
论文部分内容阅读
随着互联网技术和生物医学领域的不断发展,能够在线获取的生物医学文献数量增长迅速,这些文献中往往蕴含着大量有价值的医疗保健信息和生物医学数据,是该领域研究工作中十分宝贵的资源。作为信息抽取的核心子任务,关系抽取可以检测出实体之间在无结构化或非结构化的自然文本中所表达的语义关系,对于推动生物医学的发展具有重要意义。生物医学领域的有监督关系抽取通常受限于人工标注数据集的规模和成本,难以满足深度学习方法对于大量训练样例的需求,同时影响模型的抽取性能。远程监督技术将语料库中实体与知识库对齐,自动生成大规模有标注的训练样例,受到了研究人员的广泛关注。然而,通过远程监督方法生成的生物医学数据集中往往含有大量的标签噪声,而且由于相关文献和语料库规模的持续性增长,数据集中包含相同实体对的文本数量也将不可避免的大量增加。关系抽取方法不仅要缓解远程监督数据集中标签噪声对模型的干扰,而且也要确保对含有大量样例的句子包的信息利用效率。因此标签噪声干扰以及信息利用不充分,成为了基于远程监督的生物医学关系抽取研究中两个重大挑战。本文针对基于远程监督的生物医学关系抽取中的标签噪声干扰以及信息利用不充分这两个问题进行研究,旨在从大规模生物医学数据集的噪声环境下,训练出具有良好抽取效果的模型。本文的具体研究内容总结如下:(1)本文提出了一种在远程监督下生物医学关系抽取的新视角,将远程监督关系抽取任务视为阅读理解任务。从该视角出发,本文提出了一种基于阅读理解框架的模型来进行生物医学关系抽取。具体而言,该方法将句子包转化上下文形式,同时为上下文自动生成相应查询语句,通过查询-上下文注意力耦合上下文和查询语句的信息,捕获上下文中对关系标签更加重要的词语,降低文本噪声。该方法不使用句子级别的注意力机制,而是通过编码器直接获得句子包的向量表示用于关系预测。实验表明本文提出的模型可以有效降低文本噪声并利用句子包信息,具有良好的关系抽取性能。(2)本文提出了一种多示例学习框架下基于图结构的关系抽取模型,该模型不需要引入外部知识信息,也不需要定义和构建约束规则,通过将整个句子包视为图结构数据,能够有效利用到句间级别的信息,提高句子包的利用效率,可以直接应用于任何远程监督关系抽取数据集中。实验结果表明,模型中的查询-句子注意力机制能够捕捉到句中与实体对之间语义关系更重要的词语并降低文本噪声,句子包自注意力机制可以学习到包内句间潜在的关联信息,提升模型对句子包信息的利用率,而所提出的模型在两个生物医学数据集上都取得了最佳的关系抽取效果。
其他文献
近年来,随着计算机视觉、自然语言处理等技术的相继发展,一种更为复杂且贴近人类现实的多模态技术出现在研究者们的视野当中,多模态对话作为多模态领域的一个分支,也逐渐受到更多重视。多模态对话起步较晚,其模型结构与训练任务较为单一、数据集不丰富、多模态信息形式差别大、联合表示难度大等,都是当今该技术需要解决的重大问题。本文将从改良多模态对话模型结构、改进多模态对话模型预训练任务两个角度展开研究,以提升模型
<正> 妇科发热因于血淤者,治疗多以活血祛淤为主。笔者对妇人经期发热或产后发热的病症,每用王清任少腹逐淤汤化裁治之。方中官桂、干姜之性温而燥,虑其有助邪之弊,故常不用。而加入清热益气祛淤的熟大黄、牛膝、栀子、黄芪,以增强少腹逐淤汤祛淤清热的作用。本方通过临床验证屡获良效,爱录病例两则以供同道参考。热入血室案王××,
<正> 笔者采用中医辨证治疗中期引产术后发热,疗效尚佳,现介绍如下。病因中期引产后发热的病因病机较复杂。笔者临床体会可归纳为7种:(1)中期引产术后气血损伤,导致机体阴液亏虚,阳气相对偏盛,从而引起发热,此即《素问·逆调论》所指出的“阴气少而阳气胜,故热而烦满也。
随着最近人工智能领域的快速发展,自动驾驶技术也取得了日新月异的进步,现在已经成为近年来的热门研究方向。在自动驾驶系统中通常包括三个模块:感知模块,规划模块和控制模块。本文主要探究感知模块中的场景理解问题,即通过计算机视觉算法和技术对场景进行准确且高效的理解。本文主要聚焦场景理解的两个关键子任务:目标检测和语义分割,同时为了辅助车主驾驶加入了原图重构这一任务。深度学习技术近年来在计算机视觉与自然语言
蝗虫大规模聚集造成的灾害对农牧业、经济和环境构成重大威胁。蝗灾发生的生物学基础是蝗虫可以由散居型向群居型转变,进而大规模聚集暴发成灾。群聚信息素被认为在蝗虫群聚过程中起到重要作用,其研究历经50余年,近年来取得了一系列重要的成果。本文描述了群聚信息素的基本定义与特征并以此类推蝗虫群聚信息素应具备的基本特点;系统综述了蝗虫群聚信息素的研究历程,包括化合物的鉴定、电生理检测与行为验证等;同时分析了过去
兴隆台潜山勘探的起步较早,但中生界勘探进展仍十分缓慢,主要是因为中生界地层厚度大,勘探井数量少,储层岩性复杂,横向变化快,非均质性强,常规流程及反演方法难以达到理想的预测效果。针对这些问题,本论文首先从研究区储层岩性特征入手,利用不同岩性在测井上的响应不同,建立岩性测井识别图版,对研究区储层进行识别,然后针对兴隆台中生界储层特征,优选出储层优势岩性,最后采用波形指示反演的方法进行储层预测,在预测结
文安斜坡作为冀中凹陷重要的油气探区,其石油来源问题一直是勘探关注的重点。本研究通过文安斜坡有效烃灶分布、油源特征、输导通道刻画及油藏分布等方面研究,分析了文安斜坡沙河街组油气运移路径及其对油气分布的控制作用。研究表明:文安斜坡洼槽共发育三套有效烃源岩,即未熟-低熟的沙一下亚段(Es1下)、沙三段(Es3)烃源岩和成熟的沙四段(Es4)烃源岩。文安斜坡原油可分为三类:A类和B类油为分布在斜坡北部和中
<正>党的二十大报告提出,坚持以人民为中心发展教育,加快建设高质量教育体系,发展素质教育,促进教育公平。长期以来,深圳市民办幼儿园是深圳学前教育的重要力量,在学前教育普及普惠发展背景下,民办园向公办园转型、新型公办园的建设以及高标准的学前教育成了深圳学前教育发展的必然之路。为此,深圳开展“依托模式”增加公办园数量,即一所公办总园下依托几家分园,所托的分园有两种类型,一是新建立的公办园,二是民办园转