论文部分内容阅读
肽作为一种极为重要的生物活性物质,它在诸多生理和生化过程中扮演着中心角色。统计学方法研究肽的结构与功能关系需要解决分子结构表征和统计建模两方面问题。本文以此为入手点,通过提出、改进、引入和比较一系列表征方法和建模工具对肽的统计模拟方法学进行了系统研究。在肽的结构表征方面,本文在三个层次开展了探索工作:①定义了用于描述肽组成残基单元的氨基酸理化性质归类得分(DPPS)和拓扑标度(T标度),是为第一层次的单元参数化方法。②提出了用于表征不等长肽序列氨基酸组成及其交互信息的氨基酸组成/环境作用描述子(ACD/EID)系统,是为第二层次的序列参数化方法。③设计了基于自洽平均场理论/旋转异构子库的侧链构象分析(SCSA)方法和量子力学/分子力学-泊松波尔兹曼/表面加和模型(QM/MM-PB/SA)组合策略用于分析处于复合状态的肽/蛋白质结合自由能,是为第三层次的结构参数化方法。在肽的统计建模方面,本文主要做了以下几点工作:①新方法的应用:首次将新型机器学习算法高斯过程(GP)和随机森林(RF)应用到肽的统计模拟领域,探讨了它们与传统建模方法的性能差异。②新方法的提出:将遗传算法(GA)用于GP变量选择以期提高后者建模质量,从而得到了GA/GP;将免疫算法(IA)与神经网络(NN)加以嵌合以期避免后者单独建模时存在的诸多问题(如低效率、过拟合和局部极小等),从得到了免疫神经网络(INN)。③建模方法的系统比较:通过对八种统计回归方法用于肽统计建模所表现出的多种性能进行系统比较给出了这些方法的应用指导参考。④样本集划分方法的设计:专门为肽类样本集划分而设计了一种有效无偏的方法SpScore,该法可以实现划分所得训练集/测试集内部多样性和外部相似性的最佳平衡。⑤软件开发:在Matlab环境下开发了多类统计建模方法的统一实现平台ZP-explore,并对其进行了系统的测试。下面对这些方法的具体应用做一个概要介绍。采用T标度结合最小二乘回归(PLS)、支持向量机(SVM)和免疫神经网络(INN)对血管紧张素转化酶(ACE)抑制二肽和弹性蛋白酶模拟底物进行了定量序效模拟研究,效果良好。结果表明,ACE抑制剂生物功能主要与单个氨基酸的拓扑性质密切相关,尤其是二位残基体积大小直接影响着二肽对ACE的抑制效力;而弹性蛋白酶模拟底物的酶催化反应动力学特征则远为复杂,其主要取决于残基拓扑性质二次项和交互项的非线性作用。使用DPPS和SCSA在不同水平对人类HLA*A-0201蛋白/抗原九肽识别和结合过程的非键性质加以表征并与实验亲和力进行线性相关建模研究,确认基于氨基酸残基单元的DPPS描述子和基于复合物结构性质的SCSA方法皆可取得满意的建模效果。对所得统计模型分析可知,HLA-A*0201对抗原肽识别受疏水和氢键影响为甚,静电次之,立体效应作用最小;九肽的锚定残基P2和P9位对结合贡献最大,其次为第二锚定残基P1、P3和P7,而非锚定残基P4、P5、P6和P8影响轻微。此外还发现,长期被忽视的构象熵损失亦在抗原提呈过程中发挥重要效应。应用QM/MM-PB/SA策略对OppA蛋白/三肽复合物晶体结构进行分析,通过能量分解、位点对比和统计模拟初步揭示了OppA对肽识别所表现出的广泛特异性的分子机制:肽的N端和主链只对结合贡献巨大的稳定化自由能,但未对不同肽配基进行特异性区分;主要发生于肽侧链的去溶剂化效应由于OppA活性口袋水合空腔的存在而极大地抵消了它对结合特异性的贡献;大的中心残基与周围基质的不利立体碰撞可在一定程度上被有利的去溶剂化自由能(对疏水残基而言)或长程静电吸引(对极性残基而言)所补偿,从而不会显著增加其特异性表型。GA/GP结合SpScore样本划分技术用于双载蛋白SH3域/十肽配基亲和力分析,通过对肽配基各个位点性质选择和统计建模得到了定量亲和力预测模型,在此基础上系统地探讨了肽的结构特征对活性影响情况。分析GP超参数得知,肽的组成残基性质与亲和性之间存在线性/非线性混合函数依赖关系,且以非线性为主。另外,多样的非键性质对SH3域/肽结合贡献显著;特别地,P2位的立体和疏水性、P0位的电子性质及P-3位的静电和氢键对十肽配基的亲和力起决定性作用。基于GA变量选择,采用几类机器学习方法模拟了一组组氨酸富含肽在金属螯合色谱柱上的保留行为。结果表明,GA可以有效改善不同方法的统计建模性能及所得模型的稳定性和预测能力。最优GA/GP模型认为,肽的结构特征与色谱保留行为之间存在较为明显的非线性联系,同时线性因素也扮演了重要的角色;在各类结构性质中,配位作用和静电贡献对肽的保留行为影响最甚,而其他因素诸如溶剂和氢键也发挥了重要的功效。基于ACD/EID描述子系统,将八类回归技术应用于统计模拟研究大肠杆菌(E. coil)蛋白质组肽片段的液相色谱保留时间。通过对不同统计建模工具在拟合度、稳定性、预测力、无偏性、解释性和计算效率等多方面性能的系统比较可知,非线性方法比线性方法建模效果更佳但也更为耗时;在非线性方法中高斯过程和误差反传神经网络具有最优的稳定性、无偏性和预测能力,其次为径向基神经网络和随机森林,而两类支持向量机表现最差。进一步对不同模型深入分析发现,构成肽序列的氨基酸组成,特别是强疏水性残基和强极性的精氨酸,与肽的色谱保留行为表现出高度的线性相关性,而肽序列中不同残基之间的交互效应则与保留行为呈现显著的非线性关联。