基于进化选择压力的算法研究

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户：maxin_smart

【摘要】

：

非同义替换率(Ka)和同义替换率(Ks)对于重建系统发育以及揭示编码蛋白的进化过程有着非常重要的作用.由于Ka表示单个非同义位点上发生非同义的替换数,Ks表示单个同义位点上发

【作者】

：

章张

【机构】

：

中国科学院计算技术研究所

【出处】

：

中国科学院计算技术研究所

【发表日期】

：

2004年期

【关键词】

：

选择压力同义替换率非同义替换率计算机辅助

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

非同义替换率(Ka)和同义替换率(Ks)对于重建系统发育以及揭示编码蛋白的进化过程有着非常重要的作用.由于Ka表示单个非同义位点上发生非同义的替换数,Ks表示单个同义位点上发生同义的替换数,因此,可以用它们之间的比率ω(=Ka/Ks)来检测编码蛋白序列所受到的选择压力,进而揭示进化过程中三种不同的选择情况:当KaKs (ω>1)时为正选择;当Ka=Ks(ω=1)时为中性突变.为此,从上世纪八十年代至今,研究人员提出了一些各不相同的算法.尽管这些算法大多采用计算位点数、计算替换数和多重校正三个步骤来计算Ka和Ks,但是,由于基于不同的替换模型,这些算法在计算过程中考虑不同的序列进化特征(例如转换/颠换比、核酸/密码子使用频率等),从而使得计算结果也各不相同.于是,如何合理评估现有算法并且提供一个准确可信的算法就变得非常重要. 因此,本文首先分析了现有的算法,并着重分析了现今广泛使用的YN算法.该算法采用HKY模型,考虑转换与颠换的差异以及密码子的使用频率,但未考虑不同转换间的差异,即嘌呤间的转换与嘧啶间的转换.为此,基于Tamura-Nei模型,我们提出一个YN的改进算法,简称为MYN.通过在模拟序列和真实数据上的比较分析,结果发现,MYN算法总体上对YN算法有一定的提高. 然而,考虑较多的序列进化特征(即模型中的参数,例如,转换/颠换比率、核苷酸/密码子使用频率等)可以获取较为准确的计算结果,但与此同时,参数过多有时又会引起偏差,因此我们也无法排除基于简单模型的算法存在一定的优点.为此,通过模拟数据我们比较全面的评估了现有算法在不同参数条件下的表现,从而说明替换模型对其计算结果有着十分重要的影响.现有算法都采用特定的替换模型,而且考虑到序列间的替换个数和分化程度往往不可预知,如果可以根据特定的序列采用最适宜的替换模型,那么,我们就可以获得较为准确的Ka和Ks. 基于上述的分析结果,我们将模型选择和模型平均的策略应用于Ka和Ks的计算过程,并且相应提出两个算法,即MS算法和MA算法.通过最大似然估计将每一个候选模型逐一实现,于是,可以获取每一个候选模型所对应的最大似然值,进而计算各个模型的AIQ,值以此来确定哪个模型最适合给定的序列.但是,所选的模型只是对序列进化过程的近似,从严格意义上讲,序列的真实进化过程不会是理论上的这些候选模型,因此,采用模型平均的策略可以尽可能多的将序列的进化特征整合到计算过程中,从而获得较为准确的Ka和Ks.测试比较的结果显示,在通常情况下,基于模型平均策略的MA算法会产生更为准确可信的结果.同时,我们将这些算法集成实现于KaKs Calculator软件中. 最后,以具体实例来说明在相关的分析研究中需要慎重选择用于计算Ka和Ks的算法.中性进化理论认为Ks近似等于突变率,Wyckoff和同事采用基于简单模型(即考虑较少进化特征)的算法来计算Ka和Ks,发现选择压力与突变率之间存在很强的正相关.此现象与中性进化理论相违背,在不排除数据集有问题的同时,当我们使用多个不同算法时,发现在基于简单模型的算法中的确存在该现象,但是,当使用考虑转换/颠换比率、核苷酸/密码子频率等主要进化特征的算法时(例如GY、YN、MYN、MS、MA算法),发现选择压力与突变率之间并不存在有很强的正相关,进而说明Wyckoff和同事所发现的现象对所使用的算法有一定的依赖性,结合之前对这些算法的评估结果,所发现的正相关现象实际上是由于计算结果的偏差而导致的.

其他文献

基于机器学习技术的生物信息检索研究

在知识和数据爆炸的今天，信息检索系统在各个领域都扮演着越来越重要的角色。检索函数(有日寸也被称为打分函数或排位函数)是所有检索系统的关键组成部分，其任务是对数据库中保

学位

生物信息学信息检索机器学习技术蛋白质同源性预测

物联网节能分簇路由与碰撞检测算法研究

物联网(Internet of Things)是将各种信息传感设备与互联网等IT技术相结合所形成的网络,目的是能够远程感知和控制所有物品,物联网以智能、快捷、方便的特点成为经济社会可持

学位

物联网无线传感器网络节能RFID技术防冲突算法

基于混合软件体系结构模型的电厂SIS

随着计算机和网络技术的高速发展,SIS(Supervisory Information System of power plant)系统已经在电厂中广泛应用,将电厂的管理和控制完美地结合起来,极大地提高了电厂的经

学位

SIS混合软件体系结构OPCASP.NETActiveX

多目标跟踪传感网中数据关联方法研究

无线传感器网络具有分布式部署、覆盖范围广、感知能力丰富等特点，在环境监测、智能交通、健康监护等领域展现出了良好的应用前景，基于无线传感器网络的目标跟踪方法研究也受到

学位

无线传感器网络多目标跟踪数据关联证据推理信息融合

数据中心网络能耗与性能优化研究

随着云计算技术的快速发展，数据中心逐渐成为了当前因特网环境的重要角色，在世界各地被广泛部署。虽然能提供丰富的计算和存储能力，数据中心通常由于设计冗余和负载波动而处于较

学位

数据中心网络能耗分析性能优化云计算

时间序列预测在传感网环境监测中的应用研究

无线传感器网络可广泛应用于环境监测领域。典型的传感网环境监测应用系统中，一方面前端感知节点周期性地向后台发送数据，如何降低系统在数据传输中的能量开销成为系统应用的主

学位

无线传感器网络环境监测时间序列模型驱动传输高斯过程

城市排水管网业务信息系统的研究与开发

目前我国城市建设发展迅速，城市水体保护与可持续利用越来越受到重视，相应的雨、污水处理设施也越来越完善，排水管网及其附属设施的信息量越来越大。但是，在我国绝大多数城市中仍

学位

城市排水管网地理信息系统业务信息系统

一种基于资源共享的跨域身份认证技术的研究与实现

近些年来，随着信息技术特别是网络技术的发展，各个机构都高度重视信息化工作，针对各种需求建设应用系统，力图通过信息化来整合机构内的各种资源。在多系统并存的情况下，用户需要逐

学位

跨域身份认证统一认证身份信息共享资源共享访问控制网络安全

苏州航道信息资源综合平台的规划设计与实现

近年来，在全球范围内，各国的政府、企业和其它许多的组织机构都对信息化建设给予越来越多的关注。信息化水平已经成为衡量一个国家、一个地区、一个企业甚至一个基本的组织单元

学位

信息资源平台规划设计信息化水平信息化建设航道信息化

EPCglobal网络上关键服务的研究与实现

基于计算机网络、RFID和EPC编码等技术的EPCglobal网络，旨在搭建出一个可以识别任何物品，同时可以追踪这个物品在供应链中位置的开放性全球网络。EPCglobal网络技术的应用将给

学位

电子产品标签电子产品标签物联网物联网对象名解析服务对象名解析服务信息服务信息服务搜索服务搜索服务EPCglobal网络EPCglobal网络供应链管

基于进化选择压力的算法研究

与本文相关的学术论文