【摘 要】
:
药物关系挖掘(Drug-Drug Interaction Extraction,DDIE)是一项利用文本处理技术从生物医学文献中挖掘药物间相互作用(Drug-Drug Interaction,DDI)的任务,其研究成果对保证药物数据库的实时更新和高覆盖率具有重要意义。本文以生物医学文本为研究对象,主要针对DDIE任务开展如下研究工作:(1)现有的DDIE方法主要依赖额外的药物信息以达到更好的挖掘性
论文部分内容阅读
药物关系挖掘(Drug-Drug Interaction Extraction,DDIE)是一项利用文本处理技术从生物医学文献中挖掘药物间相互作用(Drug-Drug Interaction,DDI)的任务,其研究成果对保证药物数据库的实时更新和高覆盖率具有重要意义。本文以生物医学文本为研究对象,主要针对DDIE任务开展如下研究工作:(1)现有的DDIE方法主要依赖额外的药物信息以达到更好的挖掘性能,但药物外部信息的前期收集和后期利用都需要消耗额外的时间和算力资源。本文提出了一种基于关键语义子句(Key Semantic Sentence,KSS)和梯度协调机制(Gradient Harmonizing Mechanism,GHM)的DDIE方法,在减少时间和算力资源的基础上,实现了与依赖药物外部信息的方法相当的性能。首先,前期调研发现了降低挖掘性能的两个原因:药物实体对与DDI关系词不匹配以及因实例被错误标注而引入的标注噪声。本文通过保留药物名的基础上增加药物实体标记强调药物实体对,并利用KSS删除实例中与药物实体对不匹配的DDI关系词来缓解不匹配问题。同时,该方法通过应用GHM Loss主动降低标注错误实例的权重缓解了标注噪声问题。该方法在DDIE任务的标准语料库DDIExtraction 2013上进行实验,达到了最先进的DDI挖掘表现,F1值为84.13%,填补了依赖和不依赖额外药物信息方法之间挖掘DDI的性能差距。(2)现有的DDIE方法均基于监督学习,容易受到训练集中标注实例的数量和质量的影响。本文提出了一种基于一致性训练的两阶段半监督DDIE方法。该方法通过一致性训练的方式利用大量的无标注实例辅助训练DDIE模型,减少了模型对有标注实例的需求量。进一步地,本文提出了一种结合药物知识的两阶段DDIE策略,缓解了因样本类别不平衡,无标注实例中的正例信息被淹没在大量的负例中,难以被有效利用的问题。通过主动改变DDIExtraction 2013语料库中标注实例的比例,该方法在10%标注比例下,挖掘DDI的表现达到了有监督模型的2.35倍,在40%标注比例下,超过了使用全标注实例训练的有监督模型,F1值达到了80.21%。(3)本文设计了一个药物关系挖掘原型系统,该系统具有药物实体识别,药物间相互作用关系挖掘等功能,能够辅助生物医学领域专家从生物医学文献中快速、准确地挖掘出有价值的DDI信息,从而保证药物数据库得到及时和有效的更新。本文提出的两个DDIE方法,当标注实例充足时,能在不依赖药物外部信息的条件下,高效地从生物医学文本中挖掘DDI;当标注实例不充足时,能够有效利用无标注实例和药物知识,实现高水平的DDI挖掘表现。
其他文献
产险业务是我国保险市场的重要组成部分,近年来监管部门关于投资以及偿付能力等方面的相关政策对产险市场产生了深远影响,在此背景下,本文关注产险公司的可持续发展问题。可持续发展即公司仅依靠内部盈利便可满足偿付能力要求,而不需要外部融资。考虑到将产险公司所有业务聚合起来计算偿付能力资本要求以及沉淀资金具有一定的难度,因此本文以车险业务为例研究产险公司的可持续发展问题,本文研究思路对研究公司层面的可持续发展
随着未来移动网络B5G/6G向智能化迈进,不同计算密集型和高能耗应用业务的涌现,使得移动终端将任务迁移到边缘服务器进行处理的边缘计算得到了广泛的应用。但由于物理尺寸的限制,移动设备通常在电池容量和计算能力方面受限,而边缘计算任务迁移过程中,大量的密集型计算任务将加速终端的能耗,缩短移动设备电池的使用周期。因此如何高能效地迁移任务、降低移动终端能耗,一直是边缘计算中的开放问题。在当前高能效边缘计算任
视频超分辨率是图像处理领域中一个经典且具有挑战性的视觉任务,其目标在于根据序列低分辨率视频恢复相应的高分辨率视频。视频超分辨率重建旨在利用相邻视频帧之间的时序和空间信息生成时空一致的高分辨率视频。本文重点围绕基于深度学习的视频时序特征学习,以及时空特征融合的视频超分辨率方法展开研究。在学习并研究了目前先进的深度学习视频超分辨率重建方法的基础上,提出了结合高分辨率光流估计补偿的高分辨率特征投影网络H
权益指数年金保险,是一种与股市指数或债市指数相关联,同时具有最低收益保证的年金产品。在欧美成熟的保险市场上销售火爆,保费收入约占整个年金市场的三分之一。虽然目前我国的保险市场上还没有出现权益指数年金产品,但已经具备相应条件:一是人口老龄化的加剧将会催生巨大的养老保障需求,在我国养老金制度体系中,需要创新发展多样化的商业养老年金产品。二是近年来,保险公司保费增长乏力,普遍面临着较大的经营压力。而养老
公允价值在金融行业的广泛应用,为保险公司负债评估带来了新的挑战。我国保险会计准则对公允价值的进一步应用,以及IFRS17的发布对全球保险公司会计准则带来的冲击,也向保险公司准确拆分业务组成、合理评估负债提出了更高的要求。在这种背景之下,寿险公司需要通过合理的风险对冲安排进一步优化风险管理措施、释放准备金,实现对负债的准确评估并改善财务结构。二十余年以来,我国新型寿险产品的不断发展也使得保险业更加重
验证码是一种区分某次操作的主体是计算机程序还是正常用户的安全机制。文本验证码因其轻量、灵活易部署,被广泛应用于注册、登录、发帖、投票等场景。近年来,基于深度学习的攻击破解技术不断发展,使得文本验证码的安全性岌岌可危。对于安全人员而言,如何设计既能满足轻量级应用需求,又能提升抵御攻击能力的文本验证码是目前面临的难点和困惑。为了解决上述挑战,提升文本验证码的安全性和对抗能力,本文从广泛分布的文本验证码
近年来,我国自然灾害频发,给人民的生命财产安全带来了巨大损失与隐患,如何加强抢险救灾工作的效率成为了一个迫在眉睫的问题。开展抢险救灾工作高度依赖灾损数据的搜集速度和搜集精度,而传统灾损估计模型与信息搜集方法由于存在时间滞后性等客观缺陷,并不是一种能够实时提供灾损相关信息的方法,不利于抢险救灾工作效率的提升。社交媒体作为实时信息传递的媒介,可以将用户对于灾损事件的实时情绪反馈及时记录,这种情绪反馈中
根据参保人员权益和义务的不同,目前世界上的养老计划主要分为确定收益养老计划和确定缴费养老计划两类。前者事先规定参保人员的养老权益;后者则事先规定了参保人员的缴费水平,退休者所能获得养老金的多少取决于投资收益。二者对于投资风险的分配也不同,前者主要由基金管理人承担,而后者则由参保人员自行承担。目前,确定缴费型是国际养老计划的主流,该计划将个人的生存期以退休时刻为划分点分为两个阶段,退休前累积期和退休
滑坡是最频繁、最常见、破坏性强、波及面广的一种地质灾害,我国每年滑坡涉及伤亡人数2万人以上,严重威胁人民生命财产安全。三峡地区作为我国滑坡的高发地,成为众多学者研究的典型区域。滑坡预测的有效性取决于触发因素的筛选以及高性能预测模型的构建。在传统预测模型中影响因素对模型的敏感性考虑较少,未能筛选出关键的触发因素;此外现有的预测模型缺少了对特征的深层提取,模型存在局限性等问题,难以对滑坡进行有效预测。
秦始皇陵兵马俑是中华民族物质遗产的金字招牌,但由于岁月侵蚀、破损文物汇聚成滩难以复原,基于高性能计算是解决此问题的必要手段。然而,存在俑体碎片形状不规则、特征模糊不易提取等问题,且多碎片拼接实属于NP难题。而直觉模糊具有更强表征与辨析能力,更加适合处理特征模糊的多碎片匹配问题。此外,群体智能在解决全局拼接NP难问题上独占优势。因此,本文将直觉模糊与群智能算法相结合并应用于多碎片虚拟拼接中,展开研究