基于预训练图神经网络的药物—标靶结合亲和力预测模型

来源 :四川大学 | 被引量 : 0次 | 上传用户:dygaalove4390
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
2020年新冠疫情的爆发让全世界意识到病毒的威力与危害,如何开发针对新型病毒的特效药与疫苗是人类亟待解决的问题。药物发现的首要步骤便是找到针对特定靶点具有药用活性的药物分子基团,所以探究药物标靶蛋白与化学小分子之间的相互作用关系尤为关键。然而,发现潜在药物小分子的传统实验方法投入大量人力物力且耗时长,目前通过使用药物分子相关数据库,建立计算模型筛选药物小分子的方法备受关注。深度学习模型近年来蓬勃发展,不同神经网络模型的提出促进了自然语言处理(NLP)、计算机视觉领域(CV)的发展,同时,深度学习在生物医学领域的应用也发展迅速,在诸如预测蛋白质结构、药物性质的任务上都取得突破性进展,由此,应用深度学习模型探究药物-标靶相互作用也是极具潜力的研究方向。本文提出了一种利用深度学习模型预测药物-标靶结合亲和力的方法。该方法使用改进的长短期记忆网络(LSTM)以及图神经网络(GNN)分别对药物标靶蛋白序列与药物分子图进行特征提取,得到其特征向量,最终合并向量作为药物-标靶分子对的向量表示输入全连接网络对药物-标靶结合亲和力进行预测。本文的具体工作如下:(1)药物分子拓扑结构中包含大量生物化学信息,如化合键成键数,电子数等,应用传统深度学习模型如CNN,LSTM无法有效提取拓扑结构信息,因此,本文应用图神经网络方法提取药物分子图结构信息,通过化学信息学软件处理药物分子数据得到其拓扑结构信息作为输入,分别使用改进的图神经网络框架图卷积神经网络(GCN),图注意力网络(GAT)以及图同构网络(GIN)对药物分子进行特征提取,并比较不同图神经网络的特征提取结果。(2)本文将标靶蛋白的氨基酸序列与自然语言处理中的词、句进行类比,应用长短期记忆模型(LSTM)来提取标靶蛋白的氨基酸序列信息。将大量无标签蛋白数据集用作模型预训练的语料库,使模型获得氨基酸分子潜在的生物学信息。利用预训练好的LSTM模型对药物标靶蛋白进行表示学习,得到其表示向量用于最终的结合亲和力预测任务中,该项工作为蛋白序列的表示学习提供创新性方法。(3)本文对图神经网络进行预训练以解决药物分子标签数据集较少的情况。利用药物分子无标签数据集,不同于LSTM的预训练,本文对图神经网络设置半监督、监督两类学习任务来帮助图神经网络分别学习到节点级、图级的拓扑信息,提升了模型的泛化能力。实验结果与前沿的结合亲和力预测模型相比较,基于相同数据集,证明了本文提出模型在预测药物-标靶结合亲和力任务中的有效性与精确度。
其他文献
学位
学位
学位
学位
学位
学位
随着制造业向高效化、精密化和智能化方向转型,工业机器人的应用也越来越广泛,其运行过程中的平稳性、精确性以及工作效率都面临更高的要求。要保证机器人运行过程的平稳精确,轨迹规划是核心问题。本文以平面喷涂为应用背景,设计了基于可编程多轴运动控制器PMAC的SCARA机器人控制系统。对机器人进行运动学分析,研究了机器人在关节空间下的轨迹规划算法,针对已有算法的不足做出了改进,提出了一种混合插值算法。编写了
本篇创作报告,主要从素材的收集、构图与意境的渲染等方面,来阐述笔者毕业创作《幻梦物华》的灵感来源与创作过程。创作将生活中随处可见的场景与小物件拼接到一起,在画面中与现实空间联系起来,以此营造出一种神秘和虚幻的情景。同时,笔者突破常规写生程式,将画面进行主观化处理,使整个作品仿佛是一面镜子,映出了生活之景,却又折射出了不一样的情思。此次创作以学习新工笔画题材、图式、观念等艺术方式为载体,将其融入毕业
学位
学位