论文部分内容阅读
随着后基因组时代的来临,从生物体系的整体水平上对生物活性/性质进行研究已经逐渐成为生物学家的研究重心。生物性质/活性的主要体现者就是蛋白质。蛋白质是生物体系中最重要的大分子之一,它是一切生命活动的物质基础,也是基因表达的最终产物。肽分子实际上就是蛋白质片段。蛋白质的生物活性/性质与其独特的三维结构关系密切,因此,阐明蛋白质的结构与功能之间的内在联系对于进一步了解其发挥生物活性的分子机制以及指导相关结构的修饰改进意义深远。研究肽/蛋白质的结构与其功能之间的关系主要包括统计模拟和理论计算两类方法。统计模拟能够从大量纷繁复杂的数据中缕出头绪、提炼相互依赖关系并用于解释和预测相关性质/活性;而理论计算则能在原子层面上精确分析体系的各种性质,例如相互作用、电荷分布等。本文就是基于上述两方面展开研究的,包括蛋白质/肽的统计模拟以及蛋白质的量化研究。其中,统计模拟部分包括肽离子在离子迁移谱中飞行时间的定量构效关系(QSPR)研究以及蛋白质13CαNMR化学位移的统计预测研究,在这部分中,本文将两种新型机器学习方法,即高斯过程(GP)和随机森林(RF),引入肽/蛋白质的统计模拟领域,并系统比较了线性与非线方法在肽/蛋白质统计模拟中的性能差异。量化研究部分包括采用量子力学策略对孤立状态中的20种天然氨基酸的13CαNMR化学位移进行计算以及结合密度泛函理论(DFT)和量子力学/量子化学(QM/MM)杂化方法对各类简单模型系统和真实生物分子体系中的新型卤离子桥进行了计算分析。下面对这些工作逐一加以概述:(1)本文基于肽的结构特征将偏最小二乘回归(PLS)、最小二乘支持向量机(LSSVM)和高斯过程(GP)机器学习方法应用于1481个肽离子在离子迁移谱(IMS)中迁移时间的QSPR研究中。采用三种机器学习方法,包括一种线性的PLS和两种非线性的LSSVM以及GP方法,用于建立肽在IMS中的迁移时间与肽的结构参数之间的统计回归模型。遗传算法(GA)被同时用于对PLS、LSSVM和GP变量的选择,以期达到最佳建模效果。研究发现:①非线性的机器学习方法LSSVM和GP可以得到比线性PLS明显更优的拟合能力及预测性能,其中,由于GP协方差函数中包含了多种成分组合因而可以处理肽样本集中的线性和非线性混合依赖关系,从而取得了优于LSSVM的效果;②最优GA-GP模型认为,多肽的结构特征与其在离子迁移谱中的迁移时间之间存在较为明显的非线性联系,同时线性因素也扮演了重要的角色;③通过对GA-GP模型中贡献最大的前5个描述符的重要性分析可知,这5个变量中包括3个是拓扑描述符、1个几何描述符和1个表面偏电荷描述符,表明原子和原子层的数量、分子的结构和成键性质、分子表面积、成键数量、键长及原子所带的电荷等都是影响多肽在IMS中迁移时间的主要因素。(2)采用统计建模与量子力学相结合的方法来分析和预测蛋白质结构中氨基酸残基的Cα原子的NMR化学位移。与传统研究仅基于天然或修饰氨基酸残基结构参数进行分析所不同的是,我们此次对蛋白质中13CαNMR化学位移的统计模拟是基于完整蛋白质结构参数来实现的。本文使用启发式方法筛选变量并结合MLR、PLS、LSSVM、RF和GP机器学习工具用于建立一系列QSPR模型,结果表明:①线性MLR方法可以较好地建立起氨基酸结构特征与其13CαNMR化学位移之间的函数关系,该方法的相关系数r2=0.800、交互验证相关系数q2=0.795、预测决定系数rpred2=0.770;②RF方法比其他方法能更好地表达氨基酸残基结构特征与其13CαNMR化学位移之间的非线性关系,其r2、q2及rpred2分别为0.944、0.830和0.824:③虽然非线性方法略优于线性MLR和PLS方法所建模型,但是不可否认的是线性的方法(尤其是MLR)对该体系也能得到较为满意的结果。也就是说,蛋白质中局部微环境对氨基酸残基的13CαNMR化学位移的影响主要是线性关系所决定的,而非线性的边际效应也能对其产生一定的附加影响;④同一个氨基酸残基在不同的二级结构区域的13CαNMR化学位移值是有所差异的,相对于折叠区来说,螺旋区残基的Cα原子核受到更强的去屏蔽效应,使之化学位移向低场方向移动,而loop区的13CαNMR化学位移值则介于折叠区的和螺旋区的之间;⑤尽管氨基酸残基本身的侧链构象是影响其13CαNMR化学位移的主要因素,但其并不是唯一因素,蛋白质中复杂的局部环境也能间接影响到残基的13CαNMR化学位移,例如分子间长程相互作用。(3)采用量子力学以及基于ONIOM的双层QM/MM杂化方法对各类简单模型系统和真实生物分子体系中的卤离子桥进行了计算分析,并系统地比较了不同理论方法重现卤素模体(halide motif)中生物非键相互作用能的能力,以期进一步了解卤素模体在蛋白质和其他生物体系中的重要性并找到一种最适合的、与昂贵MP2理论计算精度相当的DFT方法用于研究生物体系中卤素离子与蛋白质原子/基团之间的相互作用。计算结果表明:①大多数DFT方法对MP2水平能量重现结果甚佳,其中杂化DFT方法普遍比纯粹DFT方法更能有效描述卤离子键合物中的非键相互作用能;②DFT方法与相对较小的6-311++G(df,pd)基组相结合基本能够得到令人满意的结果,但也存在少数例外的情况,比如SVWN5/6-311++G(df,pd)方法:③非电子相关的从头算方法(HF)和两种半经验方法(AM1和PM3)均不适合用于计算卤离子键合物的相互作用能;④流行的B3LYP泛函并不适合用于描述卤离子键合物中的非键相互作用能。事实上,它的表现远不如人们所期待的那么好;⑤在所有被研究的DFT方法中,对于氟离子键合物来说,B98、B97-1和M05泛函均能很好的重现MP2/aug-cc-pVTZ水平的△Eint值;对于氯离子键合物而言,M05-2X、MPW1B95和MPW1PW91泛函可以取得较为满意的结果;对于溴离子键合物来说,B97-1、PBEKCIS和(?)PBE1KCIS泛函效果甚佳;而对于碘离子键合物,(?)(?)UB97-1 MPW1PW91和TPSS泛函与MP2计算值之间的值差异是最小的。总的来说,PBE1KCIS泛函则适合用于分析蛋白质体系中的各种卤负离子与蛋白质基团之间的相互作用。