基于进化选择压力的算法研究

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户:maxin_smart
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
非同义替换率(Ka)和同义替换率(Ks)对于重建系统发育以及揭示编码蛋白的进化过程有着非常重要的作用.由于Ka表示单个非同义位点上发生非同义的替换数,Ks表示单个同义位点上发生同义的替换数,因此,可以用它们之间的比率ω(=Ka/Ks)来检测编码蛋白序列所受到的选择压力,进而揭示进化过程中三种不同的选择情况:当KaKs (ω>1)时为正选择;当Ka=Ks(ω=1)时为中性突变.为此,从上世纪八十年代至今,研究人员提出了一些各不相同的算法.尽管这些算法大多采用计算位点数、计算替换数和多重校正三个步骤来计算Ka和Ks,但是,由于基于不同的替换模型,这些算法在计算过程中考虑不同的序列进化特征(例如转换/颠换比、核酸/密码子使用频率等),从而使得计算结果也各不相同.于是,如何合理评估现有算法并且提供一个准确可信的算法就变得非常重要. 因此,本文首先分析了现有的算法,并着重分析了现今广泛使用的YN算法.该算法采用HKY模型,考虑转换与颠换的差异以及密码子的使用频率,但未考虑不同转换间的差异,即嘌呤间的转换与嘧啶间的转换.为此,基于Tamura-Nei模型,我们提出一个YN的改进算法,简称为MYN.通过在模拟序列和真实数据上的比较分析,结果发现,MYN算法总体上对YN算法有一定的提高. 然而,考虑较多的序列进化特征(即模型中的参数,例如,转换/颠换比率、核苷酸/密码子使用频率等)可以获取较为准确的计算结果,但与此同时,参数过多有时又会引起偏差,因此我们也无法排除基于简单模型的算法存在一定的优点.为此,通过模拟数据我们比较全面的评估了现有算法在不同参数条件下的表现,从而说明替换模型对其计算结果有着十分重要的影响.现有算法都采用特定的替换模型,而且考虑到序列间的替换个数和分化程度往往不可预知,如果可以根据特定的序列采用最适宜的替换模型,那么,我们就可以获得较为准确的Ka和Ks. 基于上述的分析结果,我们将模型选择和模型平均的策略应用于Ka和Ks的计算过程,并且相应提出两个算法,即MS算法和MA算法.通过最大似然估计将每一个候选模型逐一实现,于是,可以获取每一个候选模型所对应的最大似然值,进而计算各个模型的AIQ,值以此来确定哪个模型最适合给定的序列.但是,所选的模型只是对序列进化过程的近似,从严格意义上讲,序列的真实进化过程不会是理论上的这些候选模型,因此,采用模型平均的策略可以尽可能多的将序列的进化特征整合到计算过程中,从而获得较为准确的Ka和Ks.测试比较的结果显示,在通常情况下,基于模型平均策略的MA算法会产生更为准确可信的结果.同时,我们将这些算法集成实现于KaKs Calculator软件中. 最后,以具体实例来说明在相关的分析研究中需要慎重选择用于计算Ka和Ks的算法.中性进化理论认为Ks近似等于突变率,Wyckoff和同事采用基于简单模型(即考虑较少进化特征)的算法来计算Ka和Ks,发现选择压力与突变率之间存在很强的正相关.此现象与中性进化理论相违背,在不排除数据集有问题的同时,当我们使用多个不同算法时,发现在基于简单模型的算法中的确存在该现象,但是,当使用考虑转换/颠换比率、核苷酸/密码子频率等主要进化特征的算法时(例如GY、YN、MYN、MS、MA算法),发现选择压力与突变率之间并不存在有很强的正相关,进而说明Wyckoff和同事所发现的现象对所使用的算法有一定的依赖性,结合之前对这些算法的评估结果,所发现的正相关现象实际上是由于计算结果的偏差而导致的.
其他文献
在知识和数据爆炸的今天,信息检索系统在各个领域都扮演着越来越重要的角色。检索函数(有日寸也被称为打分函数或排位函数)是所有检索系统的关键组成部分,其任务是对数据库中保
物联网(Internet of Things)是将各种信息传感设备与互联网等IT技术相结合所形成的网络,目的是能够远程感知和控制所有物品,物联网以智能、快捷、方便的特点成为经济社会可持
随着计算机和网络技术的高速发展,SIS(Supervisory Information System of power plant)系统已经在电厂中广泛应用,将电厂的管理和控制完美地结合起来,极大地提高了电厂的经
无线传感器网络具有分布式部署、覆盖范围广、感知能力丰富等特点,在环境监测、智能交通、健康监护等领域展现出了良好的应用前景,基于无线传感器网络的目标跟踪方法研究也受到
随着云计算技术的快速发展,数据中心逐渐成为了当前因特网环境的重要角色,在世界各地被广泛部署。虽然能提供丰富的计算和存储能力,数据中心通常由于设计冗余和负载波动而处于较
无线传感器网络可广泛应用于环境监测领域。典型的传感网环境监测应用系统中,一方面前端感知节点周期性地向后台发送数据,如何降低系统在数据传输中的能量开销成为系统应用的主
目前我国城市建设发展迅速,城市水体保护与可持续利用越来越受到重视,相应的雨、污水处理设施也越来越完善,排水管网及其附属设施的信息量越来越大。但是,在我国绝大多数城市中仍
近些年来,随着信息技术特别是网络技术的发展,各个机构都高度重视信息化工作,针对各种需求建设应用系统,力图通过信息化来整合机构内的各种资源。在多系统并存的情况下,用户需要逐
近年来,在全球范围内,各国的政府、企业和其它许多的组织机构都对信息化建设给予越来越多的关注。信息化水平已经成为衡量一个国家、一个地区、一个企业甚至一个基本的组织单元
基于计算机网络、RFID和EPC编码等技术的EPCglobal网络,旨在搭建出一个可以识别任何物品,同时可以追踪这个物品在供应链中位置的开放性全球网络。EPCglobal网络技术的应用将给