论文部分内容阅读
目的:药物不良反应(Adverse drug reaction,ADR)是在新药研发过程中必须考虑的核心因素之一。随着步入老龄化社会,复杂和多发的并发症与合并疾病患者数量激增,治疗方法日益复杂。药物不良反应(ADR)已经是现代医疗保健系统面临的一大挑战。然而,目前尚无从文献数据库中一站式自动化提取药物不良反应的高效率开源式的解决方案。本研究旨在开发一个通用算法系统,使用者仅需提供目标药物的Me SH词检索策略(例如,"Aspirin/adverse effects"[MAJR]),能够自动地实现从Pub Med文献数据库中识别并提取药物不良反应功能,帮助科研工作者从生物医学文献中发掘药物不良反应信息,为辅助临床用药和公共卫生药物监测提供参考依据。研究方法:本研究主要分为两部分:1、ADRNLP药物不良反应识别通用算法系统的设计。2、利用该算法系统进行案例应用(二甲双胍、奥马珠单抗、100种FDA获批的新药)1、设计ADRNLP药物不良反应识别通用算法系统:(1)利用文本挖掘技术构建基准数据库。本项目收集了近20年间Pub Med文献数据库中与阿司匹林不良反应相关的文献,借助文本挖掘技术对文献进行信息提取和文本处理,从而构建阿司匹林基准语料库,用于下游训练并微调迁移学习模型。(2)基于Bio BERT模型微调训练迁移学习模型Bio BERT+Aspirin模型。本研究以随机从阿司匹林基准数据集抽取的10000个阿司匹林句子为训练集,对Bio BERT模型进行微调训练,训练形成Bio BERT+Aspirin迁移学习模型。针对模型的评估与验证,本项目以业界金标准ADE数据集和自行归纳数据集(阿司匹林数据集)为校验基准,以F1-score值作为评估指标,比较基准模型(Bio BERT)和微调模型(Bio BERT+Aspirin)的性能。(3)利用可视化知识图谱分析系统Grakn软件可视化预测结果。本研究针对迁移学习模型的预测结果,构建一个Grakn软件可视化ADR的算法可视化模型预测结果,便于研究者分析和研究ADR。2、利用ADRNLP算法系统进行案例应用。本研究通过3个案例详实展示ADRNLP算法系统在药物不良反应识别领域应用的巨大潜力。(1)识别/预测二甲双胍的不良反应;(2)识别/预测奥马珠单抗的不良反应;(3)识别/预测100种2018至2020年FDA获批的新药不良反应。结果:1、本研究成功搭建ADRNLP算法系统,且ADRNLP算法系统的核心模型性能表现优异。在模型基本性能方面,迁移学习模型Bio BERT+Aspirin模型在预测阿司匹林验证集获得的F1-score值为0.949,较基准模型Bio BERT模型(F1-score值:0.697)有大幅提高,提高了0.252。在迁移学习能力方面,Bio BERT+Aspirin模型在预测ADE数据集获得的F1-score值达到0.833(Bio BERT为0.733),Bio BERT+Aspirin模型提高了0.100,Bio BERT+Aspirin模型迁移学习能力表现更优异。2、ADRNLP算法系统在识别ADR应用取得巨大的潜力。(1)ADRNLP算法系统从Pub Med数据库中总共识别出107种二甲双胍的不良反应。本研究从文本挖掘形成的二甲双胍数据集共识别出771个包含二甲双胍不良反应的句子,累计107种ADRs。我们将此结果与SIDER数据库对比发现其中35种不良反应在SIDER数据库有记录,其余72种ADR尚未被SIDER收录。我们还利用Cytoscape软件构建ADRNLP结果与SIDER数据库交互网络图,发现与二甲双胍相关的临床研究的热门趋势。(2)本研究算法系统从Pub Med数据库检索发现144篇文献与奥马珠单抗不良反应相关的文献。迁移学习模型最终识别出13句包含奥马珠单抗不良反应的句子。经Grakn知识图谱软件分析表明其存在9大不良反应,分别为:三相性过敏性休克、荨麻疹、头痛、中风、血管性水肿、嗜酸性肉芽肿性多血管炎、过敏反应、脱发和变应性肉芽肿性血管炎。(3)ADRNLP算法系统应用于100种FDA批准新药的结果发现,算法系统从Pub Med文献数据库中识别出72种药物的290种不良反应,研究频次最高的药物和不良反应分别是氨磺必利和腹泻,分别占总频次的19%和5.03%。我们利用Cytoscape软件分析药物不良反应交互网络发现,59种药物之间具有相同的不良反应,其余13种药物与其他药物不存在重叠的不良反应。此外,利用g CLUTO软件对药物—ADR共现矩阵进行聚类分析,最终将72种药物—290不良反应共现矩阵聚为7类。结论:本研究成功构建一个药物不良反应识别算法系统。研究者只需提供药物的Me SH检索策略,我们研发的药物不良反应识别系统ADRNLP就可以自动、准确并稳定地从Pub Med文献数据库识别并提取药物不良反应。我们证明了用小型数据集微调的迁移学习模型是检测各种药物不良反应的合适的通用解决方案。鉴于从大规模医学文献出版物中识别药物不良反应的需求不断增加,我们认为我们的算法系统是应对当前药物不良反应挑战的潜在有力选择。