论文部分内容阅读
非同义替换率(Ka)和同义替换率(Ks)对于重建系统发育以及揭示编码蛋白的进化过程有着非常重要的作用.由于Ka表示单个非同义位点上发生非同义的替换数,Ks表示单个同义位点上发生同义的替换数,因此,可以用它们之间的比率ω(=Ka/Ks)来检测编码蛋白序列所受到的选择压力,进而揭示进化过程中三种不同的选择情况:当KaKs (ω>1)时为正选择;当Ka=Ks(ω=1)时为中性突变.为此,从上世纪八十年代至今,研究人员提出了一些各不相同的算法.尽管这些算法大多采用计算位点数、计算替换数和多重校正三个步骤来计算Ka和Ks,但是,由于基于不同的替换模型,这些算法在计算过程中考虑不同的序列进化特征(例如转换/颠换比、核酸/密码子使用频率等),从而使得计算结果也各不相同.于是,如何合理评估现有算法并且提供一个准确可信的算法就变得非常重要.
因此,本文首先分析了现有的算法,并着重分析了现今广泛使用的YN算法.该算法采用HKY模型,考虑转换与颠换的差异以及密码子的使用频率,但未考虑不同转换间的差异,即嘌呤间的转换与嘧啶间的转换.为此,基于Tamura-Nei模型,我们提出一个YN的改进算法,简称为MYN.通过在模拟序列和真实数据上的比较分析,结果发现,MYN算法总体上对YN算法有一定的提高.
然而,考虑较多的序列进化特征(即模型中的参数,例如,转换/颠换比率、核苷酸/密码子使用频率等)可以获取较为准确的计算结果,但与此同时,参数过多有时又会引起偏差,因此我们也无法排除基于简单模型的算法存在一定的优点.为此,通过模拟数据我们比较全面的评估了现有算法在不同参数条件下的表现,从而说明替换模型对其计算结果有着十分重要的影响.现有算法都采用特定的替换模型,而且考虑到序列间的替换个数和分化程度往往不可预知,如果可以根据特定的序列采用最适宜的替换模型,那么,我们就可以获得较为准确的Ka和Ks.
基于上述的分析结果,我们将模型选择和模型平均的策略应用于Ka和Ks的计算过程,并且相应提出两个算法,即MS算法和MA算法.通过最大似然估计将每一个候选模型逐一实现,于是,可以获取每一个候选模型所对应的最大似然值,进而计算各个模型的AIQ,值以此来确定哪个模型最适合给定的序列.但是,所选的模型只是对序列进化过程的近似,从严格意义上讲,序列的真实进化过程不会是理论上的这些候选模型,因此,采用模型平均的策略可以尽可能多的将序列的进化特征整合到计算过程中,从而获得较为准确的Ka和Ks.测试比较的结果显示,在通常情况下,基于模型平均策略的MA算法会产生更为准确可信的结果.同时,我们将这些算法集成实现于KaKs Calculator软件中.
最后,以具体实例来说明在相关的分析研究中需要慎重选择用于计算Ka和Ks的算法.中性进化理论认为Ks近似等于突变率,Wyckoff和同事采用基于简单模型(即考虑较少进化特征)的算法来计算Ka和Ks,发现选择压力与突变率之间存在很强的正相关.此现象与中性进化理论相违背,在不排除数据集有问题的同时,当我们使用多个不同算法时,发现在基于简单模型的算法中的确存在该现象,但是,当使用考虑转换/颠换比率、核苷酸/密码子频率等主要进化特征的算法时(例如GY、YN、MYN、MS、MA算法),发现选择压力与突变率之间并不存在有很强的正相关,进而说明Wyckoff和同事所发现的现象对所使用的算法有一定的依赖性,结合之前对这些算法的评估结果,所发现的正相关现象实际上是由于计算结果的偏差而导致的.