论文部分内容阅读
共济失调毛细血管扩张突变基因Rad3相关激酶(Ataxia Telangiectasia and Rad3-related,ATR)和端粒酶(Telomerase)是调控端粒的延伸进而避免细胞死亡的重要因子,对两者同时抑制可以有效地抑制肿瘤,而又不影响正常细胞,是抗肿瘤的理想靶标。目前,ATR和Telomerase抑制剂数量尚较少,为开发更多种类的ATR和Telomerase靶向抑制剂,进而为临床候选药提供更多的选择,本研究尝试构建ATR和Telomerase抑制剂的高性能计算机预测模型,并用于预测同时抑制ATR和Telomerase的抑制剂。本论文主要分为以下五部分:1.综述本章总结回顾了ATR和Telomerase抑制剂抗肿瘤研究进展,和机器学习方法在药物发现中的研究进展。首先,介绍了端粒对肿瘤存活的影响,以及ATR和Telomerase对肿瘤中端粒的延伸所起的关键作用。其次总结了目前已发现ATR和Telomerase的抑制剂,并选择了代表性抑制剂着重介绍。最后介绍了目前机器学习方法在药物发现中的应用以及相应的局限性。这些内容为本研究提供了理论和数据基础。2.建模数据的收集及处理本章旨在收集整理ATR和Telomerase预测模型所需数据,并进行前处理、分组和描述符选择。首先,本研究从BindingDB数据库收集ATR和Telomerase抑制剂,从ZINC数据库中获得非活性化合物,并对所收集化合物进行整理,删除冗余数据,随后将处理好的样本数据(包括阳性样本和阴性样本)随机分成训练集和测试集,最终获得ATR建模训练集化合物292个,测试集化合物为145个;Telomerase建模训练集化合物301个,建模测试集化合物为150个。通过描述符的计算筛选获得ATR抑制剂描述符94个,Telomerase抑制剂描述符92个,并进一步使用主成分分析方法对ATR和Telomerase描述符特征进行降维,最终获得ATR抑制剂描述符主成分22个,Telomerase抑制剂描述符主成分16个,建模数据的收集整理为后期建模提供了基础数据。3.atr和telomerase抑制剂预测模型构建本章使用atr和telomerase训练集数据,采用单一变量原则考察包括交叉验证模式、svm类型以及核函数,当设定交叉验证模式为三折交叉验证、svm类型为c-svc和核函数为径向基函数时,所构建的atr抑制剂svm预测模型(svm-atr)和telomerase的抑制剂svm预测模型(svm-tel)准确率均最高,经测试集对模型验证,svm-atr模型的敏感度为100%,特异性指数为95.74%,预测准确率为97.24%,马休斯相关系数为94.22%;svm-tel模型的敏感度为70%,特异性指数为97.77%,预测准确率为88.67%,马休斯相关系数为74.36%。表明本研究所构筑svm-atr和svm-tel模型具有较高的预测性能。4.atr和telomerase抑制剂预测模型验证及新抑制剂预测本章采用三种参数寻优算法(网格搜索算法、粒子群算法和遗传算法)对svm-atr和svm-tel模型的惩罚参数c和核函数参数g进行优化,使用最佳惩罚参数和核函数参数组(bestc,bestg)分别构建了atr抑制剂svm优化预测模型和telomerase抑制剂svm优化预测模型,经测试集对其进行验证,以多种评价指标(敏感度,特异性指数,预测准确率以及马休斯相关系数)为参考比较了三种算法优化构建的模型性能,结果表明:采用网格搜索算法优化的atr抑制剂svm优化预测模型(gs-svm-atr)和telomerase抑制剂svm优化预测模型(gs-svm-tel)性能优于粒子群算法和遗传算法分别优化的atr和telomerase抑制剂svm预测模型。当设定惩罚参数c为0.35255,核函数参数g为0.25时,gs-svm-atr模型交叉验证准确率为93.1507%,敏感度为100%,特异性指数为100%,预测准确率为100%,马休斯相关系数为100%;当设定惩罚参数c为1.4142,核函数参数g为0.7071时,gs-svm-atr模型交叉验证准确率为86.0465%,敏感度为88%,特异性指数为91%,预测准确率为90%,马休斯相关系数为77.91%。5.新atr和telomerase抑制剂预测本章使用网格搜索算法(gs)优化的atr和telomerase抑制剂的svm预测模型(gs-svm-atr和gs-svm-tel模型)对新的化合物集(59个未知活性化合物)进行了预测和验证,进一步考察模型的有效性。结果表明,GS-SVM-TEL模型从新化合物集中预测获得了18个潜在Telomerase抑制剂,对其中具备实验条件的4个化合物MTT抗肿瘤试验,确定了3个化合物具有较强的抑制肿瘤活性,而且分子对接发现3个化合物结合位点均在Telomerase活性口袋。由于化合物数量限制,GS-SVM-ATR模型并未从新化合物集中预测得到ATR抑制剂。为了验证GS-SVM-ATR模型性能,收集文献最新报道的23个ATR抑制剂作为外部验证集进行预测,其中22个化合物预测为阳性,验证准确率达到95%。因此,本研究所构建的GS-SVM-ATR模型和GS-SVM-TEL模型对化合物预测具有很高的准确性和可靠性。综上所述,本研究成功构建了高性能的ATR抑制剂SVM预测模型(GS-SVM-ATR)和Telomerase抑制剂SVM预测模型(GS-SVM-TEL),可以为加快ATR和Telomerase抑制剂的开发提供新的方法,同时,可以为其它种类的药物开发提供借鉴。