论文部分内容阅读
准确识别药物-靶标之间的相互作用对药物研发至关重要。不仅可以加深我们对药物作用机制的理解,在药理学方面,也有助于药物的重新定位。由于传统的实验方法受到通量和成本的限制,因此发展有效的计算方法对药物和靶标相互作用进行预测具有重要的意义。目前已经有多种计算方法用于识别药物和靶标之间的相互作用,但其准确率较低,进而需要开发更加先进的算法来提高预测的准确度。深度学习,作为一类新型的机器学习算法,已经在众多领域取得了成功。因此,本论文在已有的计算方法的基础上,从系统生物学和网络药理学的角度出发,充分利用已有的公共数据库中的海量数据资源,整合药物和靶标的多种信息,采用多种深度学习算法,建立了更加高效、准确的药物-靶标相互作用预测模型。具体的研究内容包括以下三部分:论文的第一章概述了识别药物-靶标相互作用的研究背景及研究意义。然后概述了现有的研究方法及国内外的研究进展,并从不同的角度分析了这些方法的优点及其局限性。然后,在此基础上对深度学习算法进行了简单阐述。重点介绍了我们工作中所用到的几种深度学习算法,并从原理上分析了深度学习算法的优势及其在药物研发领域的一些应用。论文的第二章研究的是基于深度学习算法的药物-靶标相互作用预测新方法。我们以DrugBank数据集作为基准研究数据,特征向量的构建基于药物分子的结构信息和靶标蛋白的序列信息。采用了三种深度学习算法,深度神经网络(DNN)、高速路神经网络(HN)和循环神经网络(RNN)建立药物-靶标相互作用预测模型。通过在独立测试集上进行评估,DNN、HN、RNN模型预测结果的ROC曲线下面积(AUC)和准确率(Acc)分别达到0.96和0.90、0.94和0.88、0.95和0.87,这表明我们所建立的模型能够较好地识别药物-靶标相互作用。除此之外,我们还建立了2种传统的机器学习模型,随机森林(RF)和支持向量机(SVM),RF和SVM模型的AUC和Acc分别达到0.90和0.84、0.92和0.85,从结果比较可以看出深度学习模型较传统的机器学习模型性能有一定提升。为了进一步说明模型的泛化能力,我们引入Experimental set作为外部验证集,用所建立模型对新的药物-靶标相互作用进行预测,预测结果表明我们的方法具有较好的预测性能,能够高效、准确的预测新的药物-靶标相互作用。本文的第三章主要研究的是基于深度学习算法的药物-靶标结合亲和力预测新方法。结合亲和力是药物-靶标相互作用强弱的一个表征。本工作采用深度学习算法建立一个回归模型,以预测药物-靶标结合亲和力的大小。我们以PDBBind数据集作为基准研究数据,采用两种方法构建特征向量,一种是基于药物结构信息和靶标序列信息,第二种是基于BINANA算法分析药物-靶标相互作用的信息。然后我们采用深度神经网络(DNN)建立了药物-靶标结合亲和力预测模型。考虑到结合亲和力的表征方式不同(解离常数K_d和抑制常数K_i),我们分别建立了DL-K_d模型,DL-K_i模型,以及不考虑分组的DL-All模型。通过在独立测试集上的评估,基于药物和蛋白描述符的DL-K_i模型的Pearson’s相关系数R达到0.85,RMSE低至1.07,基于BINANA算法的DL-All模型的Pearson’s相关系数R达到0.83,RMSE低至0.87,这些结果表明我们的模型具有较好的预测能力。此外,基于两种特征的DL-All模型的预测性能均优于DL-K_i和DL-K_d模型,说明深度学习算法更适用于大数据。最后,通过与SVM和RF对比,发现深度学习模型较传统机器学习模型预测性能有很大提升。以上的工作采用深度学习算法分别建立了药物-靶标相互作用预测的分类和回归模型,不仅能够定性的判定药物和靶标之间是否存在相互作用,还可直接定量的预测其相互作用的大小-结合亲和力,这将对旧药物的重新定位和新药的研发具有重要的意义。