论文部分内容阅读
艾滋病作为世界性的顽疾威胁着全人类的健康,HIV-1非核苷类逆转录酶抑制剂(NNRTIs)和HIV-1蛋白酶抑制剂(PIs)对高效抗逆转录病毒疗法(HAART)做出了重要的贡献。本论文以HIV-1逆转录酶(RT)抑制剂和HIV-1蛋白酶(PR)抑制剂为研究对象,分别进行了 HIV-1 NNRTIs的高低活性分类研究、新型HIV-1 NNRTIs的设计和HIV-1 PIs的定量构效关系研究。(1)采用多种机器学习算法构建了 HIV-1非核苷类逆转录酶抑制剂(NNRTIs)的高低活性分类的多个模型。数据集被三次随机划分为训练集和测试集。采用Avalon指纹描述符、ECFP4指纹描述符、拓扑扭转力(TT)指纹描述符和CORINA描述符四类描述符对抑制剂分子进行计算表征。利用支持向量机(SVM)、决策树(DT)、随机森林(RF)和深度神经网络(DNN)四种机器学习算法,共建立了 48个HIV-1NNRTIs高低活性分类模型。其中,使用ECFP4指纹描述符和DNN算法建立的最佳模型Model 2J训练集准确率Q=0.999,马修斯相关系数MCC=1;测试集Q=0.871,MCC=0.74。通过分析最佳模型Model 2J中的关键描述符,发现 ECFP4145、ECFP4900、ECFP4141、ECFP4925 和 ECFP424 这五个指纹代表的子结构通常出现在高活性抑制剂中。此外,我们利用t-分布邻域嵌入(t-SNE)降维和K均值(K-Means)聚类算法将1267个HIV-1NNRTIs分为九个子集。通过进一步分析九个子集内的抑制剂的活性分布,我们发现含有二芳基嘧啶、硫乙酰吡唑/三唑和苯甲腈嘧啶酮结构片段的NNRTIs生物活性较高。(2)利用计算机设计了一些潜在的新型的HIV-1非核苷类逆转录酶抑制剂(NNRTIs)。我们以二芳基嘧啶、硫乙酰吡唑/三唑和苯甲腈嘧啶酮为基础骨架,通过支链取代设计生成了 2817个新分子。通过高低活性分类模型预测,保留所有模型均预测为高活性的新分子。然后通过Lipinski五规则筛选、过滤假阳性化合物(PAINS)、药代动力学(ADMET)评价、半柔性分子对接、全柔性分子对接和排查专利系列方法筛选得到两个候选化合物,这两个候选化合物具有较大成为HIV-1 NNRTIs先导化合物的潜力。(3)采用多种机器学习算法构建了HIV-1蛋白酶抑制剂(PIs)生物活性的多个定量构效关系模型。收集了含有1238个实验生物活性值(Ki)的蛋白酶抑制剂,采用多元线性回归(MLR)、支持向量机(SVM)、随机森林(RF)和深度神经网络(DNN)四种机器学习算法,建立了 14个定量构效关系(QSAR)模型。对于DNN算法构建的最优模型Model2G,其训练集和测试集的决定系数(R2)分别为0.88和0.79,均方根误差(RMSE)分别为0.39和0.51。对于模型Mode12G,训练集的应用域阈值(ADT)=1.765,在此基础上,测试集中65.37%的化合物的相似距离在应用域范围内(d<ADT),可以被准确预测。此外,1238个蛋白酶抑制剂根据其骨架结构特性被划分为八类,对应于八个子集。其中,羟胺类抑制剂和七元环脲类抑制剂具有较强的生物活性。我们使用SVM、RF和DNN算法对299个羟胺类抑制剂和377个七元环脲类抑制剂的两个子集分别建立了 QSAR模型。羟胺类抑制剂的最佳模型Model 3A,测试集R2=0.71;RMSE=0.53。七元环脲类抑制剂的最佳模型Model 4B,测试集R2=0.82;RMSE=0.51。通过分析Model 3A和Model 4B中的关键描述符,我们发现七元环脲类高活性抑制剂中通常含有多个芳族氮杂环取代基,如:吡唑和咪唑;而恶唑烷酮结构片段和磺胺类结构片段主要出现在羟胺类的高活性抑制剂中。这些结论可以对新的HIV-1 PIs研究提供一定的帮助。本论文进行了 HIV-1NNRTIs和HIV-1 PIs的构效关系研究,利用机器学习算法构建出的一系列高性能模型;通过分析建模数据、模型结果和重要描述符得出一些高活性抑制剂的结构特征。本论文的研究成果对HIV-1逆转录酶抑制剂和蛋白酶抑制剂的进一步研究具有指导意义。