QSAR研究中提高模型预测能力的新方法探讨及其在药物化学中的应用

被引量 : 42次 | 上传用户:gbnew
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
科学的发展是服务于现实生活的。人们经常会以“到底有什么实际用途”、“与现实生活有什么关系”或者“能否解决实际问题”来衡量一个新鲜事物。定量结构活性关系(Quantitative Structure-Activity Relationship, QSAR)研究也不例外,其在解决实际问题中的实用性一直备受关注。QSAR发展至今,应用已经非常广泛,其研究对象包括化合物的生物活性、毒性、药代动力学参数和生物利用度以及分子的各种理化性质和环境行为等,研究领域涉及生物、药学、化学以及环境科学等诸多学科。人们期望通过各种QSAR模型从分子水平上理解化合物的微观结构与其宏观活性之间的关系,为设计、筛选或预测具有人们期望的性质的化合物提供信息。在众多的应用中,利用模型预测未经实验测定甚至未合成的新化合物的相关活性,是QSAR模型最重要的用途之一。但是要用于预测新化合物,QSAR模型必须具有较高且可信的外部预测能力。因此本论文从建立QSAR模型的各个步骤考虑,试图解决目前QSAR研究中某些还有待完善的问题,重点研究了定量构效关系研究中化合物低能构象的选择问题、提出了几种新的建模策略、引入新的建模方法,旨在尽可能地提高QSAR模型的可靠性以及外部预测能力。同时,将具有很好预测能力的定量构效关系模型用于活性化合物的设计和筛选。论文第一章对定量结构活性关系研究进行了概述。从QSAR的发展历史、研究现状到发展趋势,从模型的建立、检验到应用,都进行了详细的阐述,并重点讨论了模型的验证问题。另外为了对QSAR建模方法有清晰的认识,本章从不同角度对各种QSAR方法进行了分类归纳;论文第二章讨论了二维QSAR研究中的一个基本问题——化合物构象对于定量构效关系模型的影响。旨在分析不同能量优化方法所得到的低能构象的差别、对最终QSAR模型的影响有多大。基于什么样的构象对于建立最终模型的至关重要,这也是一个QSAR研究的基础。通过对三组复杂程度不同的化合物进行研究后,得出了以下主要结论:(1)进行分子的三维结构优化时所用的初始构象能够影响模型的最终结果,并且分子结构越复杂影响越大;(2)构象搜索能够给出能量较低的分子状态,它可以协助分子力学或半经验等优化方法很快很容易的找到全局最优的低能构象;(3)如果所建立的QSAR模型用于新化合物的预测,则新化合物最好与训练集数据使用同样的优化方法;第三章介绍本文提出的两种新颖的一致性建模分析方法:WCM和改进的CDFS。一致性建模分析是一种新型的建模方法,但目前用来建立一致性模型的方法都是平均策略(ACM)。实际上不同的子模型包含的信息不同,对于最终活性的贡献也不同。因此本文提出一种更加合理的加权策略(WCM),考虑用多元线性回归的方法给子模型不同的权重,并且提出了Q2引导的子模型选择策略(QGMS)来指导子模型的选择过程。这两种策略用于一系列丙二酰辅酶A脱羧酶抑制剂的定量构效关系研究,WCM模型的表现优于ACM和最佳单个模型,模型的拟合能力和预测能力都有很大提高,且模型更加稳定可靠,可解释性增强。CDFS是另一种一致性建模思路。CDFS方法将数据集进行多次分组分别建模,然后取模型的公共描述符建立最终模型。该方法的缺点是很难保证所得到的若干训练集的代表性。本文提出利用科学的分组方法得到具有代表性的训练数据,基于该数据利用不同的描述符组合进行建模,描述符出现频率越高说明其包含的结构信息越重要,然后取出现频率高的描述符建立最终模型。该方法用于169个噻唑类淋巴细胞特异性激酶抑制剂的定量构效关系研究,最终得到了包含八个公共描述符的模型,得到了很好的结果;第四章指出了局部建模local lazy regression (LLR)方法中一个问题,并且提出了相应的解决办法。在局部建模分析中,如何确定最优的临近点数量(k)对模型的预测是至关重要的,目前使用的方法是利用抽一法交互验证(LOO-CV)的Q2来自动决定。而LOO-CV只是一种内部检验技术,不能说明模型的外部预测能力,因此建立模型进行预测的可靠性值得怀疑。本文提出通过监测局部模型的外部预测能力来提高LLR预测的可靠性和准确性,并用于黑色素浓缩激素受体1拮抗剂的定量构效关系研究,提高了模型的预测能力和预测可信度,得到了很好的结果;第五章应用两种新型的非线性建模方法最小二乘支持向量机(LS-SVMs)和基因表达式编程(GEP)进行建模分析,使模型的拟合能力和预测能力都有一定的提高。本论文中, (1) LS-SVMs方法用于羟吲哚类细胞周期依赖性激酶(CDK)抑制剂的分类,模型分类正确率比线性判别分析(LDA)模型有很大提高;(2) LS-SVMs方法用于44个人类肝脏糖原磷酸化酶(hlGPa)抑制剂,模型的抽一法交互验证表明LS-SVMs模型更加稳定,非线性模型的预测能力比多元线性回归(MLR)模型更强,且在此工作中验证了QSAR研究中进行描述符选择的必要性;(3) LS-SVMs方法用于吡嗪-吡啶类血管内皮生长因子受体2(VEGFR-2)抑制剂的定量构效关系研究,模型的预测能力比线性MLR模型有很大程度的提高;(4)非线性GEP方法用于62个MCHR1拮抗剂的QSAR研究,所得GEP模型的拟和能力尤其是外部预测能力都比线性MLR方法有很大提高,Rext2从线性的0.756提高到0.819;第六章重在讨论模型的应用——数据库挖掘和虚拟筛选。提出了一个新颖的QSAR/docking混合策略对淋巴细胞特异酶Lck抑制剂进行QSAR研究,所建模型用于虚拟筛选化合物数据库,最终筛选出两个磺酰基脲类衍生物,它们与Lck激酶活性位点的结合模式与文献报道的已知抑制剂非常相似,并且具有较高的预测活性。其中关键的磺酰基脲和疏水基团子结构可以作为Lck抑制剂结构优化的先导骨架。本研究所提出的策略可以从多方面考虑训练数据的结构特征,并且可以保证训练集数据的多样性,成功地将基于配体的虚拟筛选(LBVS)和基于受体的虚拟筛选(SBVS)有机地结合到一起进行化合物数据库的筛选。
其他文献
联合国世界计量经济联接模型系统中国宏观计量经济模型的模拟分析结果祝宝良(国家信息中心经济预测部100045)1模型简介1979年实行改革开放以来,我国的经济体制逐步由计划经济向社会主义的
秭归县是国家命名的“中国脐橙之乡”,秭归脐橙是“国家地理标志保护产品”。秭归脐橙经过多年的积累和发展,在全国广泛销售,深受北方市场消费者喜爱。打开了国内外市场,赢得
以徐力杀母事件作为引子,通过行为主义学派的行为塑造,对徐力杀母事件进行分析并尝试探讨行为塑造在学习过程中的应用与不足。利用逻辑分析法对徐力杀母事件进行分析,并将行
昆德拉的世界文学观可以概括为:首先,认识文学的"美学价值",应该从"大环境"(艺术史)入手,因此,"世界文学"的思想非常重要;其次,民族有大有小,各民族文学进入"世界文学"的机会
结合珠江流域暴雨洪水特性、河流水系特征和防洪工程体系现状,对《珠江洪水调度方案》进行了深入解读。阐明了洪水调度目标与原则,详细介绍了堤防水闸、骨干水库、蓄滞洪区等
民间组织设立制度,是指由国家制定和实施的规范民间组织设立的实体法和程序法律制度,也可称之为民间组织许可登记制度。民间组织设立制度在规范民间组织设立和政府监管,维护
从破产制度产生和演变的历史来看,早期的破产法只适用于个人的。自然人破产是破产制度的本源,法人破产不过是自然人破产的扩大和延伸。而我国现行破产法适用范围显然有局限性
将"流动式分层"教学模式运用于大学公共体育排球教学中,通过对比发现,进行"流动式分层"教学的学生在技能水平和认知态度方面都优于进行"传统教学"的学生。
分权是大国必然采取的治理模式,中国式分权的制度安排为地方政府发展经济提供了持续的激励,被认为是中国经济发展的根本原因。财政分权和政治集权的紧密结合构成了地方政府实
土地作为基本投入要素是一切经济生产活动的载体,其自然供给量不能增加。在继续向前推进改革开放的过程中,工业化和城镇化的迅速发展造成建设用地需求量剧增,地方政府在各种