【摘 要】
:
作为前沿热门交叉学科,生物医学领域涵盖了包括生物学、生命科学、医学和计算机科学等多个学科的专业知识,该领域的研究也因此得到了研究者的广泛关注。最近几年,研究者在生
论文部分内容阅读
作为前沿热门交叉学科,生物医学领域涵盖了包括生物学、生命科学、医学和计算机科学等多个学科的专业知识,该领域的研究也因此得到了研究者的广泛关注。最近几年,研究者在生物医学领域取得了非常大的研究进展,该领域专业文献的数目也随之呈指数增长,进而导致研究者在获取所需信息时通常需要翻阅大量的文献。因此,通过文本挖掘技术,从生物医学领域的无结构专业文献中抽取有价值的生物医学信息对于推动该领域的研究而言具有重要意义。关系抽取是生物医学信息抽取的关键任务之一。目前主流的关系抽取技术普遍是基于句子级别的,即主要关注于抽取同一句子中的两实体关系。在篇章关系抽取任务中,关系中的两个实体不再处于同一句中,而是横跨多个句子,从整体上对概念级的关系进行表示,相比句子级关系抽取具有更大的难度。基于此,本文首先提出一种基于多示例学习的方法来进行篇章级别的生物医学实体关系抽取。该方法根据多示例学习思想,为每个候选实体对构造多个关系示例,有效缓解了单示例方法在进行句间关系抽取时由于单示例可能存在噪音而损害模型性能的问题,与可比较的主流方法相比,该方法获得了最好的性能表现。另外,生物医学领域的人工标注数据规模通常较小,这会导致模型训练不够充分,进而影响系统的关系抽取性能。针对该问题,本文在引入远程监督的同时,提出一种融合领域知识的方法来进行关系抽取。该方法首先通过远程监督将现有知识库和生物医学文献对齐,生成了大量标注数据,进而扩大了训练集,在一定程度上增强了模型的学习能力。同时,该方法对领域知识的融合进行了初步探索,通过将领域知识信息与文本语义信息融合,来进一步对系统的关系抽取性能进行改善。实验结果表明,该方法可明显提升系统的性能表现。最后,语言模型预训练方法在众多自然语言处理任务上都获得了先进结果,这引起了研究者的广泛关注。为了探索预训练语言模型在生物医学关系抽取任务上的表现,本文在现有关系抽取模型的基础上引入预训练语言模型。即首先通过大规模无标注的生物医学数据对语言模型进行预训练,然后将语言模型的文本表示当作特征加入到关系抽取模型中,最后输出关系预测结果。实验结果表明,融合了预训练语言模型的关系抽取方法获得了明显的性能提升。
其他文献
在大数据背景下,社会活动呈现出数字化、复杂化的趋势,公安机关为更好应对这一社会现象,在其行政执法过程中利用第三方数据是不可或缺的,且利用的范围和频率与日俱增。但是,
泛在电力物联网的快速发展,带来了更多的应用场景和更大的应用空间。用电信息采集系统作为泛在电力物联网的一部分,其应用也在发展,产生新的应用需求。而当前的应用协议已无
稀疏性重构是近几年快速发展的一类问题,在许多交叉学科有着广泛的应用。随着人类信息获取能力的不断提高,产生的数据量成倍增长,如何存储,传输,并利用这些数据挖掘出有价值
图像分割是图像识别,目标跟踪等任务的预处理步骤,在图像处理中占据重要地位,可用于医学检测和交通控制等多个与计算机视觉相关的方面。但是图像分割由于待分割图像数据的特殊性和多样性,一直没有通用的方法出现,同时平衡图像分割的精确度和算法的实施性也是研究过程中一个需要考虑的问题。水平集方法由于其自由变换拓扑结构的特点,在图像分割领域取得了优秀的分割结果。本文对水平集理论及水平集方法在图像分割中的应用进行了
大数据时代的到来,使得数据的使用、收集、储存方式发生了重大的变化:它彻底改变了记忆的模式,将人脑“短暂性”的记忆转变为数据“永久性”的记忆。数据化是一把双刃剑,它在
互联网和信息技术的快速发展满足了人们对信息的需求,但人们在享受其带来便利的同时,也面临着信息过载的问题。为了解决这一问题,推荐系统应运而生,并在电影、社交、电子商务
近几年A证券公司的运营发展非常迅速,在财富管理业务转型方面所投入的资源也比较丰富,这体现出了 A证券公司管理者对于财富管理业务转型工作的重视程度。在财富管理业务转型的过程中,A证券公司的经纪业务发展也受到了一定影响,部分老客户的流失使A证券公司对于财富管理业务转型的需求进一步提高。基于上述背景,A证券公司迫切需要结合财富管理业务转型工作开展的需要搭建一套科学的风险管理策略。通过有效的风险评价与分析
本文主要研究了度量测度空间(M,g,e-φdv)到具有非正截面曲率的黎曼流形(N,h)的φ-调和映照.在适当的条件下我们得到了 φ-调和映照u的梯度估计,并利用该估计证明了在∞-Bakr
近年来,无人机技术的迅猛发展,同时促进了低空遥感相关技术的快速进步。无人机所具备的操作便捷、高效率、成本低等优势,使其被广泛应用于林业监控、灾害应急响应等领域。由于无人机进行低空航拍所获取的图像视角较小、数据量大且分辨率较高,为了得到拍摄场景的完整的视野,需要通过拼接技术将大量的小视角图像拼接成大场景图像。对林地的生长状况进行动态监测还需要对植被进行分类提取,因此选取何种算法实现精确、高效的图像拼
分布式存储系统Ceph不但具有高可靠性、高性能、可扩展性和数据自动均衡等特性,还结合了无中心化和无元数据寻址的先进设计思想。这些特点使得Ceph能在存储领域中备受欢迎。在分层的存储架构中,Ceph为进一步提高系统性能,将SSD存储设备池作为HDD存储设备池的缓存层。但在此分层的存储架构下,一方面,Ceph缓存存在污染问题,在系统中产生了不必要的I/O;同时,缓存池内存储节点负载不均衡的问题会影响系