基于GS-SVM的ATR和Telomerase抑制剂预测模型研究

来源 :江苏大学 | 被引量 : 1次 | 上传用户:paul5260
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
共济失调毛细血管扩张突变基因Rad3相关激酶(Ataxia Telangiectasia and Rad3-related,ATR)和端粒酶(Telomerase)是调控端粒的延伸进而避免细胞死亡的重要因子,对两者同时抑制可以有效地抑制肿瘤,而又不影响正常细胞,是抗肿瘤的理想靶标。目前,ATR和Telomerase抑制剂数量尚较少,为开发更多种类的ATR和Telomerase靶向抑制剂,进而为临床候选药提供更多的选择,本研究尝试构建ATR和Telomerase抑制剂的高性能计算机预测模型,并用于预测同时抑制ATR和Telomerase的抑制剂。本论文主要分为以下五部分:1.综述本章总结回顾了ATR和Telomerase抑制剂抗肿瘤研究进展,和机器学习方法在药物发现中的研究进展。首先,介绍了端粒对肿瘤存活的影响,以及ATR和Telomerase对肿瘤中端粒的延伸所起的关键作用。其次总结了目前已发现ATR和Telomerase的抑制剂,并选择了代表性抑制剂着重介绍。最后介绍了目前机器学习方法在药物发现中的应用以及相应的局限性。这些内容为本研究提供了理论和数据基础。2.建模数据的收集及处理本章旨在收集整理ATR和Telomerase预测模型所需数据,并进行前处理、分组和描述符选择。首先,本研究从BindingDB数据库收集ATR和Telomerase抑制剂,从ZINC数据库中获得非活性化合物,并对所收集化合物进行整理,删除冗余数据,随后将处理好的样本数据(包括阳性样本和阴性样本)随机分成训练集和测试集,最终获得ATR建模训练集化合物292个,测试集化合物为145个;Telomerase建模训练集化合物301个,建模测试集化合物为150个。通过描述符的计算筛选获得ATR抑制剂描述符94个,Telomerase抑制剂描述符92个,并进一步使用主成分分析方法对ATR和Telomerase描述符特征进行降维,最终获得ATR抑制剂描述符主成分22个,Telomerase抑制剂描述符主成分16个,建模数据的收集整理为后期建模提供了基础数据。3.atr和telomerase抑制剂预测模型构建本章使用atr和telomerase训练集数据,采用单一变量原则考察包括交叉验证模式、svm类型以及核函数,当设定交叉验证模式为三折交叉验证、svm类型为c-svc和核函数为径向基函数时,所构建的atr抑制剂svm预测模型(svm-atr)和telomerase的抑制剂svm预测模型(svm-tel)准确率均最高,经测试集对模型验证,svm-atr模型的敏感度为100%,特异性指数为95.74%,预测准确率为97.24%,马休斯相关系数为94.22%;svm-tel模型的敏感度为70%,特异性指数为97.77%,预测准确率为88.67%,马休斯相关系数为74.36%。表明本研究所构筑svm-atr和svm-tel模型具有较高的预测性能。4.atr和telomerase抑制剂预测模型验证及新抑制剂预测本章采用三种参数寻优算法(网格搜索算法、粒子群算法和遗传算法)对svm-atr和svm-tel模型的惩罚参数c和核函数参数g进行优化,使用最佳惩罚参数和核函数参数组(bestc,bestg)分别构建了atr抑制剂svm优化预测模型和telomerase抑制剂svm优化预测模型,经测试集对其进行验证,以多种评价指标(敏感度,特异性指数,预测准确率以及马休斯相关系数)为参考比较了三种算法优化构建的模型性能,结果表明:采用网格搜索算法优化的atr抑制剂svm优化预测模型(gs-svm-atr)和telomerase抑制剂svm优化预测模型(gs-svm-tel)性能优于粒子群算法和遗传算法分别优化的atr和telomerase抑制剂svm预测模型。当设定惩罚参数c为0.35255,核函数参数g为0.25时,gs-svm-atr模型交叉验证准确率为93.1507%,敏感度为100%,特异性指数为100%,预测准确率为100%,马休斯相关系数为100%;当设定惩罚参数c为1.4142,核函数参数g为0.7071时,gs-svm-atr模型交叉验证准确率为86.0465%,敏感度为88%,特异性指数为91%,预测准确率为90%,马休斯相关系数为77.91%。5.新atr和telomerase抑制剂预测本章使用网格搜索算法(gs)优化的atr和telomerase抑制剂的svm预测模型(gs-svm-atr和gs-svm-tel模型)对新的化合物集(59个未知活性化合物)进行了预测和验证,进一步考察模型的有效性。结果表明,GS-SVM-TEL模型从新化合物集中预测获得了18个潜在Telomerase抑制剂,对其中具备实验条件的4个化合物MTT抗肿瘤试验,确定了3个化合物具有较强的抑制肿瘤活性,而且分子对接发现3个化合物结合位点均在Telomerase活性口袋。由于化合物数量限制,GS-SVM-ATR模型并未从新化合物集中预测得到ATR抑制剂。为了验证GS-SVM-ATR模型性能,收集文献最新报道的23个ATR抑制剂作为外部验证集进行预测,其中22个化合物预测为阳性,验证准确率达到95%。因此,本研究所构建的GS-SVM-ATR模型和GS-SVM-TEL模型对化合物预测具有很高的准确性和可靠性。综上所述,本研究成功构建了高性能的ATR抑制剂SVM预测模型(GS-SVM-ATR)和Telomerase抑制剂SVM预测模型(GS-SVM-TEL),可以为加快ATR和Telomerase抑制剂的开发提供新的方法,同时,可以为其它种类的药物开发提供借鉴。
其他文献
“红色之爱”苹果长势旺盛,树体紧凑,干性强,适宜密植。其萌芽率高,成花容易,自然坐果率高,丰产性强。抗病、抗寒能力强,适应性广,我国北方苹果适生区域均可种植,南方应先小面积试种,试
目的:观察四君子汤灌胃大鼠体内甘草甜素的药代动力学特征,为复方效应成分动力学研究提供实验依据。方法:建立反相HPLC测定大鼠血浆中甘草甜素含量的方法,不同时间点取大鼠四
采用CT定位钻孔抽吸血肿结合尿激酶溶解引流治疗高血压性基底节区脑出血42例,并与对照组42例比较。结果治疗组不仅显著降低了死亡率,而且明显改善了病人的功能预后,与对照组比较
禽白血病是一种由禽白血病病毒引起鸡的不同组织发生良性和恶性肿瘤的传染性疾病。为了了解乐都区禽白血病的感染情况,用酶联免疫吸附试验(ELISA)对乐都区5个规模养殖场不同品
随着医学多学科的交叉综合发展,越来越多的非病理学专业研究生需要利用病理技术开展课题研究,因此加强研究生病理技术学习,有效提高研究生培养质量是病理学面临的重要任务。
<正>一、财务部在内部控制中的地位和作用财务部是企业资金调控、财务信息归集、保证财务报告的真实性、合法性的重要部门。资金是企业的命脉,财务部是企业的资金管理中心,在
洗钱是一种具有严重社会危害性的复杂的高智商犯罪。而深入系统地研究、借鉴国际社会反洗钱犯罪立法的经验,进一步规范我国刑法洗钱罪的罪名体系;适当扩大洗钱罪的范围,将清
肝癌是最常见的肿瘤之一,严重威胁人类的健康。目前,对于肝癌的治疗依旧以传统的治疗手段为主,但治疗效果不佳。肝癌干细胞(Liver Cancer Stem Cells,LCSCs)是肿瘤细胞中正常
目的:探讨中医药治疗妊娠期智齿冠周炎的方案。方法:对妊娠期智齿冠周炎患者给予中药含漱,中药制剂局部喷洒与内服等系统治疗。结果:用中药治疗31例,痊愈17例,好转11例,总有
邓小平曾多次强调政治稳定对于中国经济发展至关重要。迄今尚无正规研究对中国政治稳定的经济发展效应进行经验评估。本文利用历年《人民日报》报道"资产阶级自由化"和"敌对