肽结构表征及统计建模方法学研究与应用

被引量 : 0次 | 上传用户:blueblacktzb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
肽作为一种极为重要的生物活性物质,它在诸多生理和生化过程中扮演着中心角色。统计学方法研究肽的结构与功能关系需要解决分子结构表征和统计建模两方面问题。本文以此为入手点,通过提出、改进、引入和比较一系列表征方法和建模工具对肽的统计模拟方法学进行了系统研究。在肽的结构表征方面,本文在三个层次开展了探索工作:①定义了用于描述肽组成残基单元的氨基酸理化性质归类得分(DPPS)和拓扑标度(T标度),是为第一层次的单元参数化方法。②提出了用于表征不等长肽序列氨基酸组成及其交互信息的氨基酸组成/环境作用描述子(ACD/EID)系统,是为第二层次的序列参数化方法。③设计了基于自洽平均场理论/旋转异构子库的侧链构象分析(SCSA)方法和量子力学/分子力学-泊松波尔兹曼/表面加和模型(QM/MM-PB/SA)组合策略用于分析处于复合状态的肽/蛋白质结合自由能,是为第三层次的结构参数化方法。在肽的统计建模方面,本文主要做了以下几点工作:①新方法的应用:首次将新型机器学习算法高斯过程(GP)和随机森林(RF)应用到肽的统计模拟领域,探讨了它们与传统建模方法的性能差异。②新方法的提出:将遗传算法(GA)用于GP变量选择以期提高后者建模质量,从而得到了GA/GP;将免疫算法(IA)与神经网络(NN)加以嵌合以期避免后者单独建模时存在的诸多问题(如低效率、过拟合和局部极小等),从得到了免疫神经网络(INN)。③建模方法的系统比较:通过对八种统计回归方法用于肽统计建模所表现出的多种性能进行系统比较给出了这些方法的应用指导参考。④样本集划分方法的设计:专门为肽类样本集划分而设计了一种有效无偏的方法SpScore,该法可以实现划分所得训练集/测试集内部多样性和外部相似性的最佳平衡。⑤软件开发:在Matlab环境下开发了多类统计建模方法的统一实现平台ZP-explore,并对其进行了系统的测试。下面对这些方法的具体应用做一个概要介绍。采用T标度结合最小二乘回归(PLS)、支持向量机(SVM)和免疫神经网络(INN)对血管紧张素转化酶(ACE)抑制二肽和弹性蛋白酶模拟底物进行了定量序效模拟研究,效果良好。结果表明,ACE抑制剂生物功能主要与单个氨基酸的拓扑性质密切相关,尤其是二位残基体积大小直接影响着二肽对ACE的抑制效力;而弹性蛋白酶模拟底物的酶催化反应动力学特征则远为复杂,其主要取决于残基拓扑性质二次项和交互项的非线性作用。使用DPPS和SCSA在不同水平对人类HLA*A-0201蛋白/抗原九肽识别和结合过程的非键性质加以表征并与实验亲和力进行线性相关建模研究,确认基于氨基酸残基单元的DPPS描述子和基于复合物结构性质的SCSA方法皆可取得满意的建模效果。对所得统计模型分析可知,HLA-A*0201对抗原肽识别受疏水和氢键影响为甚,静电次之,立体效应作用最小;九肽的锚定残基P2和P9位对结合贡献最大,其次为第二锚定残基P1、P3和P7,而非锚定残基P4、P5、P6和P8影响轻微。此外还发现,长期被忽视的构象熵损失亦在抗原提呈过程中发挥重要效应。应用QM/MM-PB/SA策略对OppA蛋白/三肽复合物晶体结构进行分析,通过能量分解、位点对比和统计模拟初步揭示了OppA对肽识别所表现出的广泛特异性的分子机制:肽的N端和主链只对结合贡献巨大的稳定化自由能,但未对不同肽配基进行特异性区分;主要发生于肽侧链的去溶剂化效应由于OppA活性口袋水合空腔的存在而极大地抵消了它对结合特异性的贡献;大的中心残基与周围基质的不利立体碰撞可在一定程度上被有利的去溶剂化自由能(对疏水残基而言)或长程静电吸引(对极性残基而言)所补偿,从而不会显著增加其特异性表型。GA/GP结合SpScore样本划分技术用于双载蛋白SH3域/十肽配基亲和力分析,通过对肽配基各个位点性质选择和统计建模得到了定量亲和力预测模型,在此基础上系统地探讨了肽的结构特征对活性影响情况。分析GP超参数得知,肽的组成残基性质与亲和性之间存在线性/非线性混合函数依赖关系,且以非线性为主。另外,多样的非键性质对SH3域/肽结合贡献显著;特别地,P2位的立体和疏水性、P0位的电子性质及P-3位的静电和氢键对十肽配基的亲和力起决定性作用。基于GA变量选择,采用几类机器学习方法模拟了一组组氨酸富含肽在金属螯合色谱柱上的保留行为。结果表明,GA可以有效改善不同方法的统计建模性能及所得模型的稳定性和预测能力。最优GA/GP模型认为,肽的结构特征与色谱保留行为之间存在较为明显的非线性联系,同时线性因素也扮演了重要的角色;在各类结构性质中,配位作用和静电贡献对肽的保留行为影响最甚,而其他因素诸如溶剂和氢键也发挥了重要的功效。基于ACD/EID描述子系统,将八类回归技术应用于统计模拟研究大肠杆菌(E. coil)蛋白质组肽片段的液相色谱保留时间。通过对不同统计建模工具在拟合度、稳定性、预测力、无偏性、解释性和计算效率等多方面性能的系统比较可知,非线性方法比线性方法建模效果更佳但也更为耗时;在非线性方法中高斯过程和误差反传神经网络具有最优的稳定性、无偏性和预测能力,其次为径向基神经网络和随机森林,而两类支持向量机表现最差。进一步对不同模型深入分析发现,构成肽序列的氨基酸组成,特别是强疏水性残基和强极性的精氨酸,与肽的色谱保留行为表现出高度的线性相关性,而肽序列中不同残基之间的交互效应则与保留行为呈现显著的非线性关联。
其他文献
文章基于小学英语教学中文化意识的重要性,以PEP人教版《义务教育教科书·英语》五年级下册为例,谈谈如何挖掘教材中的文化信息,培养学生的文化意识,提高学生的文化素养。
社会经济高度发展,人们的精神却变得无所适从,出现各种各样的问题。社会多元化发展,却没有一个相应的评价机制,这可能就是说脏话的心理因素。对于身心都尚在发育中的初中生,
在学生党员的发展过程中,有一个必不可少的环节——入党积极分子党校培训,入党积极分子必须参加学校组织的党校学习,也就是我们说的听党课,在党校培训结束后,入党积极分子还
近年来,我国上市公司在数量、规模等方面不断扩大,结构不断优化,运作不断规范,然而同时,我国相关的一些法律法规越来越规范,企业面临的压力越来越大,风险也越来越大。而企业
随着伺服系统的广泛应用,高精度伺服系统控制成为了当前运动控制领域研究的一个热点问题;某型雷达高精度角跟踪伺服系统正可以描述为一类含摩擦环节的伺服系统。摩擦作为伺服
佛经翻译开启了中国翻译研究的帷幕,在中国拥有上千年的发展历史。中国古代佛经翻译经历了四个主要阶段,每个阶段呈现出各自的特点。第一章探寻了中国古代佛经翻译的起源,归
为了探索南北方老年人出行行为之间的差异,选取北方城市东营市和南方城市恩平市为研究对象。基于两个城市的居民出行调查数据,对南北方60岁以上老年人群的出行特征进行统计,
<正> 文学欣赏是文学活动中的一个重要方面。本文想谈谈文学欣赏中的几个基础理论问题,供同志们在文学欣赏的实践活动中参考。一、文学欣赏的意义什么是文学欣赏?文学欣赏是
霍布斯以其发现的类似自然科学方法的新方法,坚定地阐述了政治学的诸多理论。在晚年,他将研究的视角转向了英格兰普通法,并以批判英格兰普通法的《一位哲学家与英格兰法学家
教学空间是所有教育建筑的核心空间,是其主要功能的载体。它的设计影响着高校的基本职能——教育活动的质量和效率。随着高等职业技术教育的迅猛发展,教学空间的设计与使用面