【摘 要】
:
分子对接已成为现代先导化合物筛选和优化的常规技术,但受限于打分函数(Scoring Function,SF)的预测精度,其在部分实际应用中的成功率依然无法取得令人满意的效果。一大原因是经典SF往往采用了线性加和的函数形式,无法准确表征生物活性与蛋白-配体相互作用间的关系。近年来,基于机器学习的打分函数(Machine Learning-Based Scoring Function,MLSF)的概念
论文部分内容阅读
分子对接已成为现代先导化合物筛选和优化的常规技术,但受限于打分函数(Scoring Function,SF)的预测精度,其在部分实际应用中的成功率依然无法取得令人满意的效果。一大原因是经典SF往往采用了线性加和的函数形式,无法准确表征生物活性与蛋白-配体相互作用间的关系。近年来,基于机器学习的打分函数(Machine Learning-Based Scoring Function,MLSF)的概念被提出,它们往往不需要预设函数形式,而是依赖于机器学习(Machine Learning,ML)算法从数据中去学习函数形式,显示出比经典方法更强的灵活性。虽然近几年MLSF取得了较大的发展,并在部分研究中展现出了比经典SF更出色的预测能力,但受限于目前评价体系的不完善,这些方法是否真的具有如文献所报道的突出性能还需要进一步探索和验证。此外,新型蛋白-配体复合物表征策略的持续进步以及以集成学习、深度学习(Deep Learning,DL)为代表的新一代人工智能(Artificial Intelligence,AI)算法的不断发展为MLSF进一步发展带来了新的契机。因此,本论文以探究并开发高精度MLSF为目的,分别针对蛋白-配体结合亲和力预测(排序)、蛋白-配体结合构象预测以及虚拟筛选(Virtual Screening,VS)等三类SF非常重要的任务展开研究,主要内容和结论如下:(1)基于25种常用SF的能量项/特征项,用新型ML算法取代传统的线性回归方法构建了多个新型MLSF并系统考察了它们的打分能力。结果表明,这些MLSF比经典方法具有更为出色的打分能力,且以梯度提升决策树(Gradient Boosting Decision Tree,GBDT)和随机森林(Random Forest,RF)为代表的集成学习算法相对表现最优。然而,训练和测试样本间的靶标结构和序列相似性会对这些MLSF的打分能力产生显著影响,但是只要训练集中拥有足够多结构相似的蛋白,大部分MLSF的打分能力依然可以得到保证。进一步对不同来源特征进行组合可以发现,当将NNscore2.0与1~4个经典SF组合时可以获得最佳的打分能力。(2)鉴于在实际药物设计中人们可能更关注SF在VS中的表现,系统评测了14种已报道的普适性MLSF在VS中的效果。整体而言,大部分MLSF在任意一个测试集上均无法取得令人满意的结果,其性能甚至要显著低于经典方法Glide SP。本身便是在DUD-E上训练所得的RFscore-VS可在大部分靶标上显示出较优的性能,但它在全新靶标上的预测效果却非常有限。综上所述,当前几乎所有的普适性MLSF的泛化能力都不足以使它们适用于所有真实的VS场景,因此我们在VS中使用这类方法时需保持谨慎。(3)在“无偏”数据集LIT-PCBA上从预测精度和命中化合物结构新颖性两个层面综合考察了基于3种代表性蛋白-配体相互作用表征策略所构建的靶标特异性MLSF在VS中的预测性能,并与经典方法Glide SP和3种基于配体的定量构效关系(Quantitative Structure-Activity Relationship,QSAR)模型进行了比较。就预测精度而言,这些MLSF大体上显示出比Glide SP更优的筛选能力,但它们却很难超过基于配体指纹的QSAR模型。就命中化合物结构新颖性而言,不管是基于化合物排序的相关性还是排名靠前分子的结构,不同表征策略都能够发现结构不同的活性分子。(4)构建了多个用于蛋白-配体结合构象预测的交叉对接/重对接构象数据集,以此为基础开发了多个用于结合构象预测的MLSF。计算结果表明,当采用ECIF、Vina能量项和对接构象排名作为表征时在多个验证方式上可获得相对最优的结果。我们的结果还进一步凸显了在训练集中引入交叉对接构象的重要性,其可有效提升结合构象预测模型的应用范围以及可靠性。最后,我们还将本研究的源码以及交叉对接数据集放在了开源平台上。本研究可为MLSF在结合构象预测任务中的应用提供重要指导,而我们在此构建的数据集也有望成为开发和评估用于蛋白-配体结合构象预测的MLSF的重要基准。综上所述,本论文从打分、对接、筛选三个角度对MLSF训练及验证中的多个关键问题进行了探索,同时还构建了多个MLSF及数据集以便相关领域研究人员参考使用。本研究不管是对新型MLSF的开发与评价还是对其在实际新药研发中的潜在应用均具有重要的参考价值。
其他文献
研究目的:急性肾损伤(Acute kidney injury,AKI)是一种多因素介导,以肾功能急剧性减退为临床特征的临床常见危重病。运动神经元生存蛋白(Spinal motor neuron,SMN)蛋白在全身多脏器组织细胞中广泛表达,它主要参与sn RNPs合成,前体m RNA剪接,及调控细胞凋亡等生物过程。SMN在肾脏中表达,然而其在肾脏中的作用目前尚没有报道。本课题重点研究SMN在AKI中
目的:研究经尿道内镜下前列腺切除术后创面修复的过程;明确创面新生尿路上皮细胞的来源及前列腺上皮干细胞在再上皮化过程中的重要性。建立前列腺上皮干细胞向尿路上皮样细胞转分化的体外诱导模型。研究创面组织细胞中5型磷酸二酯酶(PDE5)蛋白表达量的动态变化;明确5型磷酸二酯酶抑制剂(PDE5i)在创面修复中的影响及相关机制。方法:1.利用腺相关病毒(AAV)对比格犬前列腺进行EGFP标记,随后建立前列腺切
研究背景:随着基因分型及新一代测序技术的发展,全基因组关联研究(GWAS)发现了超过100个2型糖尿病(T2D)及60个糖化血红蛋白A1c(HbA1c)相关单核苷酸多态性位点(SNP)。这使得以遗传变异位点为研究工具的孟德尔随机化(MR)分析及基因-饮食交互作用研究成为后GWAS时代重要的遗传流行病学研究方法和手段。MR分析是一种采用GWAS研究中所发现的SNP作为代表暴露因素的工具变量(Ⅳ),研
全面建设社会主义现代化强国,戮力同心实现中华民族伟大复兴,离不开深厚而自信的文化支撑,离不开富有精神激励的红色文化的传承与弘扬。高校学生作为全面建设社会主义现代化强国的接班人和未来主力军,担负着实现中华民族伟大复兴中国梦的接续奋斗重任。中国正处于不断深化改革和扩大开放的关键时期,中华民族日益走向世界舞台中央,高校学生不可避免地要面对各种社会思潮的冲击,还有意识形态多元化带来的纷扰。一定意义上说,高
国家意识是中华民族历史地形成的光荣传统,是中华民族宝贵的精神财富,是捍卫国家主权独立、维护国家尊严荣誉、实现国家繁荣发展的强大精神力量。中国共产党历来重视国民的国家意识培养,特别是党的十八大以来,以习近平同志为核心的党中央多次强调要增强国民国家意识,并作出重要战略部署。大学生作为国家宝贵的人才资源,是民族的希望、祖国的未来,肩负着实现国家富强、民族振兴、人民幸福的历史使命和时代重任。大学生的国家意
随着纳米技术的快速发展,纳米等离子激元材料表现出特有的光散射特性,受到研究者们极大的关注,在生物化学传感检测领域得到快速发展与应用。近年来,等离子激元材料(贵金属纳米颗粒)的光散射已经成为定量和表征不同纳米颗粒最常用的技术之一。贵金属纳米颗粒因其易于制备、生物相容性、惰性和迷人的颜色等优势而受到人们广泛地关注。尤其是金纳米颗粒凭借其独特的光学特性,被广泛地应用于生物传感检测领域。本文详细讨论当前开
开发高效、稳定、无毒、薄膜化、元素地球储量丰富的太阳能电池吸收层材料长期以来一直是太阳能电池研究的“圣杯”。锌黄锡矿结构的Cu2Zn Sn(S,Se)4(CZTSSe)半导体基本满足以上要求,且该类太阳能电池理论效率达33.2%,极具发展前景。然而,由于受到严重开路电压损失(VOC,def)的限制,CZTSSe太阳能电池效率长期停滞在12.6%。尽管CZTSSe与铜铟镓硒(CIGS)在晶体结构与电
为满足物联网的大规模接入,需要大幅提升无线通信的系统容量,包括无线信道容量和终端并发接入容量。无线射频信号在自由空间传播时,环境反射是影响信道容量的一个重要因素。自然环境反射存在随机性,接收信号因多径传播和用户移动表现出快衰特性,易致信干噪比和信道容量下降。近年来,以智能反射面(IRS)为代表的人工反射环境,引入无源波束赋形技术,能极大地提升信干噪比。而分布式排队(DQ)技术,相比传统的Aloha
缺血性脑卒中是最常见的炎性脑病之一,具有高发病率、高致残率和高致死率的特点,严重威胁着人类健康,造成了沉重的社会负担。目前对于缺血性脑卒中的治疗,面临两个重大瓶颈性问题。一为血脑屏障的存在,其高选择性和低通透性维持了脑内稳态的同时,也阻碍了药物向脑内的递送。缺乏有效的靶向递送系统,药物难以被精准递送至缺血病灶处。二是卒中发生后,常伴随着剧烈的炎症反应,若不能及时控制炎症发展易造成无法逆转的脑损伤。
随着制造业的不断发展,智能制造逐渐兴起并普及,业内企业在面对大量机会的同时,也面临了越来激烈的竞争,要想在激烈的竞争中把握机遇、求得发展,就必须找准未来努力的方向和方法,那么实施战略管理就成了企业必然的选择。战略管理是企业在复杂多变的经营环境中持续获得竞争优势的根本保证,是企业配置资源、协调经营活动、完善管理体制、构建核心竞争力的有效途径。本文以K公司智能制造业务的发展战略为研究对象,结合其发展现