HIV-1非核苷类逆转录酶抑制剂和蛋白酶抑制剂的构效关系研究

来源 :北京化工大学 | 被引量 : 1次 | 上传用户:luoming106
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
艾滋病作为世界性的顽疾威胁着全人类的健康,HIV-1非核苷类逆转录酶抑制剂(NNRTIs)和HIV-1蛋白酶抑制剂(PIs)对高效抗逆转录病毒疗法(HAART)做出了重要的贡献。本论文以HIV-1逆转录酶(RT)抑制剂和HIV-1蛋白酶(PR)抑制剂为研究对象,分别进行了 HIV-1 NNRTIs的高低活性分类研究、新型HIV-1 NNRTIs的设计和HIV-1 PIs的定量构效关系研究。(1)采用多种机器学习算法构建了 HIV-1非核苷类逆转录酶抑制剂(NNRTIs)的高低活性分类的多个模型。数据集被三次随机划分为训练集和测试集。采用Avalon指纹描述符、ECFP4指纹描述符、拓扑扭转力(TT)指纹描述符和CORINA描述符四类描述符对抑制剂分子进行计算表征。利用支持向量机(SVM)、决策树(DT)、随机森林(RF)和深度神经网络(DNN)四种机器学习算法,共建立了 48个HIV-1NNRTIs高低活性分类模型。其中,使用ECFP4指纹描述符和DNN算法建立的最佳模型Model 2J训练集准确率Q=0.999,马修斯相关系数MCC=1;测试集Q=0.871,MCC=0.74。通过分析最佳模型Model 2J中的关键描述符,发现 ECFP4145、ECFP4900、ECFP4141、ECFP4925 和 ECFP424 这五个指纹代表的子结构通常出现在高活性抑制剂中。此外,我们利用t-分布邻域嵌入(t-SNE)降维和K均值(K-Means)聚类算法将1267个HIV-1NNRTIs分为九个子集。通过进一步分析九个子集内的抑制剂的活性分布,我们发现含有二芳基嘧啶、硫乙酰吡唑/三唑和苯甲腈嘧啶酮结构片段的NNRTIs生物活性较高。(2)利用计算机设计了一些潜在的新型的HIV-1非核苷类逆转录酶抑制剂(NNRTIs)。我们以二芳基嘧啶、硫乙酰吡唑/三唑和苯甲腈嘧啶酮为基础骨架,通过支链取代设计生成了 2817个新分子。通过高低活性分类模型预测,保留所有模型均预测为高活性的新分子。然后通过Lipinski五规则筛选、过滤假阳性化合物(PAINS)、药代动力学(ADMET)评价、半柔性分子对接、全柔性分子对接和排查专利系列方法筛选得到两个候选化合物,这两个候选化合物具有较大成为HIV-1 NNRTIs先导化合物的潜力。(3)采用多种机器学习算法构建了HIV-1蛋白酶抑制剂(PIs)生物活性的多个定量构效关系模型。收集了含有1238个实验生物活性值(Ki)的蛋白酶抑制剂,采用多元线性回归(MLR)、支持向量机(SVM)、随机森林(RF)和深度神经网络(DNN)四种机器学习算法,建立了 14个定量构效关系(QSAR)模型。对于DNN算法构建的最优模型Model2G,其训练集和测试集的决定系数(R2)分别为0.88和0.79,均方根误差(RMSE)分别为0.39和0.51。对于模型Mode12G,训练集的应用域阈值(ADT)=1.765,在此基础上,测试集中65.37%的化合物的相似距离在应用域范围内(d<ADT),可以被准确预测。此外,1238个蛋白酶抑制剂根据其骨架结构特性被划分为八类,对应于八个子集。其中,羟胺类抑制剂和七元环脲类抑制剂具有较强的生物活性。我们使用SVM、RF和DNN算法对299个羟胺类抑制剂和377个七元环脲类抑制剂的两个子集分别建立了 QSAR模型。羟胺类抑制剂的最佳模型Model 3A,测试集R2=0.71;RMSE=0.53。七元环脲类抑制剂的最佳模型Model 4B,测试集R2=0.82;RMSE=0.51。通过分析Model 3A和Model 4B中的关键描述符,我们发现七元环脲类高活性抑制剂中通常含有多个芳族氮杂环取代基,如:吡唑和咪唑;而恶唑烷酮结构片段和磺胺类结构片段主要出现在羟胺类的高活性抑制剂中。这些结论可以对新的HIV-1 PIs研究提供一定的帮助。本论文进行了 HIV-1NNRTIs和HIV-1 PIs的构效关系研究,利用机器学习算法构建出的一系列高性能模型;通过分析建模数据、模型结果和重要描述符得出一些高活性抑制剂的结构特征。本论文的研究成果对HIV-1逆转录酶抑制剂和蛋白酶抑制剂的进一步研究具有指导意义。
其他文献
Bir1p是酵母凋亡途径中抑制细胞凋亡的重要蛋白,Survivin是Bir1p的人源同源物,Survivin第34位氨基酸T向A的突变能使其功能逆转。将Survivin及其突变体Survivin(T34A)的基因分别
随着科技的发展,计算机已应用到各行各业.多媒体课件的制作和应用也涉足到了医学教学体系中.作为医学重要组成部分的形态学,它是研究机体微细结构的学科,要想掌握好这部分内
组织学是一门基础医学形态学学科,标本考试是教学的重要环节,试题的质量是衡量考试效果最重要的因素.笔者在教学过程中建立了组织学标本音像题库,并经过实践应用和不断完善,
期刊
运动终板属运动神经末梢,由脊髓前角或脑干的运动神经元胞体发出长轴突抵达骨骼肌时失去髓鞘,并反复分支,形成葡萄状终末,与骨骼肌纤维建立突触连接.显示神经末梢的最常用的
我盼着那双黑皮鞋出现在门口。
那天,我照例打开门,说了声“我回来了”。便大步流星地向书记窜去。就在那一刻,我发现父亲疲惫地倚在沙发上睡着了,来不及脱下那厚重的工作服,
对采集自我国长江的鳙的线粒体DNA全序列进行了测定。结果表明,鳙的线粒体DNA全长为166221bp,其碱基因组成为A=31.6%;C=27.1%;G=16.0%;T=25.3%,A+T含量为56.9%。鳙线粒体基因组的排列、结构和
新生儿Fc受体(FcRn)是由α链和β链两个亚基以非共价键的形式组成的异源二聚体,在免疫球蛋白IgG转运和代谢中发挥着重要作用。对FcRn的分子结构、转运机制及其功能进行了综述。
从市售海水鱼内脏中分离得到一株产虾青素的酵母,编号为NZ-01。采用传统形态学鉴定方法及rDNA序列分析法分别对从NZ-01进行鉴定。形态学鉴定结果表明该菌为胶红酵母(Rhodotoru
将表达酿酒酵母3-磷酸甘油脱氢酶基因(GPD1)和3-磷酸甘油酯酶基因(HOR2)的质粒PSE-gpd1-hor2转化到甘油激酶基因(glpK)和甘油脱氢酶基因(gldA)双缺失的大肠杆菌JM109C中,构建产甘油的