论文部分内容阅读
天然产物近千年来在维持和改善人类健康方面发挥了重要的作用。从天然产物中开发新药被证明是非常成功的。然而,由于化学成分和作用机制的复杂性,用传统方法从天然产物中搜寻有效药物和揭示药效机制是非常困难的。最近,ADME/T预测、系统生物学和系统药理学的成功整合已经极大促进了大量新的能治疗多种疾病的潜在药物的发现和开发。此论文中介绍了如何整合计算ADME/T、药代动力学、系统药理学、组学和系统生物学来研究从天然产物中发掘药物,旨在突出天然产物在药物发现中重要作用。在获得一个新的可成药的天然产物后,寻找它治疗疾病的潜在机制是对药物安全性和药物新药效开发非常重要的。由于小分子化合物/药物通常作用于蛋白质靶标上行使相应的药理学功能,因此药靶相互作用(DTI)的确定在药理学研究中极为关键。而由于实验耗费高、蛋白纯化难等一系列问题,传统实验方法测定药靶相互作用仍然面临严峻的挑战。而且当前计算模型通常着眼于预测小规模的直接或间接靶标。本文用Ki常数将DTI量化为化合物和蛋白质分子间的亲和力。从PDSP Ki数据库(http://pdsp.med.unc.edu/kidb.php)收集配体、靶标和二者的亲和力相关信息。在构建数据集的过程中,删除其中不能特征化的化合物分子。通过分析数据集中的Ki值,发现有成百上千个Ki值为1000 nM或10 000 nM的数据,这些数据很有可能是一些潜在的缺失数据,而且如此多的重复数据不利于构建准确的模型。因此在构建模型时我们删除了Ki值重复多于70次的相关数据,该阈值是根据两个准则确定:(1)尽可能保留更多的数据;(2)尽可能多地排除缺失数据。最后我们得到没有重复的2003个化合物和209个靶标数据作为建模数据集。通过运用Dragon软件和PROFET服务器分别将化合物分子和蛋白质特征化,获得基于1589个分子描述符和1080蛋白质描述符的9948对配体-蛋白质数据,并用支持向量机(SVM)和随机森林(RF)这两种算法构建了两个机器学习模型。运用5倍交叉验证和F检验对着两个模型的性能进行评价和比较。结果显示,对于药靶关系的预测,两种模型的最优模型都显示出较好的性能,交叉验证结果显示SVM模型和RF模型的测试集的决定系数R2分别为0.6079和0.6267,均方误差MSE分别为7.0487和6.5828,两个模型提供了有效的Ki预测性能而且没有过拟合现象。但是通过F检验发现,RF模型比SVM模型更加稳定可靠(P<0.001)。此外通过进一步分析RF模型产生的描述符重要性,我们发现化合物分子的2D自相关性、拓扑电荷指数和3D-MoRSE描述符以及蛋白质的自相关描述符和两性伪氨基酸成分对于Ki预测更为重要。因此在这里我们构建的RF模型能作为药靶相互作用预测的模型并将有利于药物的靶标预测和药物研发过程中的毒性评价。