论文部分内容阅读
蛋白质是一种由多种氨基酸聚合而成的多肽生物大分子,在生物体的结构组成和功能活动中扮演着重要的角色。蛋白质在生命活动中行使功能是以它形成特定的空间构象为前提,然而蛋白质的多肽分子结构使得蛋白质理论上可以采取的构象数目巨大。因此,正如Anfinsen原理强调的,进化产生的蛋白质序列中应该包含指定天然二级和三级结构的信息。此外,蛋白质在生命体中发挥功能还需要保证一定的热稳定性,这种热稳定性信息同样由蛋白质序列所决定。实际上,蛋白质序列可以折叠到特定构象的可折叠性以及在该构象下的热稳定性都是蛋白质序列一种特征性属性,对这类特征性属性的分析和利用有助于从序列直接预测结构以及设计新的蛋白质序列。
蛋白质序列在进化过程中维持其可折叠性和热稳定性的方式之一是氨基酸取代的保守性,这种保守性特征较多的应用在氨基酸打分矩阵构建和蛋白质折叠识别中。氨基酸打分矩阵实际上隐含了其训练集蛋白质序列的氨基酸取代信息,基于氨基酸打分矩阵的序列比对实质上是以训练集的氨基酸取代保守性去度量目标比对序列的保守性。因此训练集的选取对于打分矩阵的构建及其比对效果很关键。这里分别基于低一致性(<25%)的全α、全β和α/β蛋白的结构比对,构建了三个蛋白质结构类特异的打分矩阵(ALPHASUM、BETASUM和AFBETASUM),低一致性水平的选择是为了针对“模糊区域”的比对问题。在比对效果评测中三个类特异的打分矩阵显著优于一种基于结构比对的矩阵(HSDM)以及其他三种通用矩阵(BLOSUM30、BLOSUM60和Gonnet250),基于训练集优化的空位罚分对改进序列比对结果也起了重要作用。这就确证了在蛋白质结构类层次建立打分矩阵相比传统通用打分矩阵的优势和必要性。
为了分析维持序列可折叠性和热稳定性的这种氨基酸取代保守性的具体特征,又在结构类特异的矩阵基础上进一步建立二级结构特异打分矩阵,并构建氨基酸聚类树,结合打分矩阵分析蛋白质的氨基酸取代模式。结果表明,不同的结构类蛋白存在相同和不同的取代模式,而且在相同蛋白类型的不同二级结构和不同蛋白类型的相同二级结构中取代模式也存在差异。由此提出超二级结构的折叠可能对氨基酸取代施加非局部取代限制,对Overington等人提出的局部环境限制理论是一个补充,并提出环境特异矩阵应该基于不同的蛋白结构类型构建。
氨基酸打分矩阵和氨基酸取代模式的研究更多关注的是蛋白质序列中的保守性信息。基于蛋白质可折叠性和热稳定性信息具有长程相关性的事实,这里进一步采用修改的统计耦联方法,分析了两个模式蛋白质的序列群体中存在的耦联性信息。结果表明统计耦联方法采用的统计保守能量可以较好的评估蛋白质家族序列的位点保守性,而它给出的平均耦联能量可以基本上对应一些结构或功能上具有重要意义的位点。对统计耦联数据的一些位点扰动个案分析表明,蛋白质结构中某个位点对其他位点的影响方式有紧邻扰动和非紧邻扰动两种模式。对统计耦联数据的聚类重排分析表明,蛋白质结构中的位点在空间的紧邻关系并不意味着它们的扰动效应和耦联响应模式也接近。一种特定的蛋白质结构类型中包含了一系列涉及不同位点组合的扰动模式,其中的主扰动模式与其结构稳定性和(或)功能的维持密切相关。不同的扰动模式模式通过一些共有的扰动位点和响应位点相互影响。而蛋白质结构中的不同的扰动模式包含一些共同位点也暗示蛋白质的可折叠性和热稳定性信息具有可重叠的特征,即同一个位点在结构中可以扮演多种角色。
在这里给出的蛋白质结构类型特异矩阵和相应的二级结构特异矩阵的基础上,可以构建一些新的蛋白质折叠识别方法。不同折叠型的耦联性信息也可以被应用到折叠识别中。耦联性信息的提取还有助于指导同一家族的新蛋白质序列的设计,或者修改已有的序列提高其可折叠性和热稳定性。而综合蛋白质序列的取代保守性信息和位点耦联性信息或许是提高蛋白质序列比对效果和蛋白质折叠型识别效果的更有效途径。