论文部分内容阅读
自从达尔文时代起,重建地球上所有生命的进化历史,并用系统树的形式来描述这部历史,已经成为许多生物学家的一个梦想。随着分子生物学及生物技术的迅猛发展,生物科学的数据资源急剧膨胀,人们开始利用生物序列数据推断生物进化历史,建立了分子系统学。生物序列及其进化模型是分子系统学的重要组成部分。传统的生物序列分析方法是比对分析方法,20多年前,非比对分析方法作为比对分析方法的补充和发展而出现,并且成为计算分子生物学的一个研究热点。本文以生物序列为研究对象,提出了一些新的分析方法,研究了生物序列进化过程的模型,为进化距离的改进提出了一些新的结果。本文的主要工作包括以下几个方面:1.提出了新的氨基酸序列的两种图形表示方法。一种方法是按照疏水性把氨基酸分为三类,对分类后的氨基酸序列进行分析,文中定义了三条曲线(IA曲线,EA曲线和IE曲线),这三条曲线不仅能可视化新的序列,而且可以比较三类氨基酸的分布情况。首次引入条件概率作为序列的数字特征,以挖掘隐藏在序列中的相关性信息,并在此基础上分析了序列的相似性。第二种图形表示方法是直接利用氨基酸的疏水值,定义了氨基酸序列的疏水性曲线,根据传统的图形量化方法分析序列的相似性。以ND6(NADHdehydrogenase subunit6)蛋白质序列为生物数据,阐明并比较了两种分析方法,结果表明两种方法是合理可行的。2.提出了蛋白质序列的选择进化距离公式。蛋白质序列的进化距离因氨基酸替代模型的不同而不同,针对这一问题,本文在选择的思想下,建立了氨基酸序列的进化模型,得到了新的进化距离(选择进化距离)公式,给出了进化距离中参数的确定方法。通过17个物种的细胞色素b的氨基酸序列说明了选择进化距离的计算方法,并根据自展法比较了不同进化距离得到的物种进化树。结果表明,利用选择进化距离构建的进化树与其他几种进化距离得到的进化树的拓扑结构一致,而且选择进化距离的计算避免了氨基酸替代模型的选择问题。3.提出了量化DNA序列碱基分布的指标。在DNA序列的4个单碱基和16个双碱基的距离分布模型的基础上,定义了4个单碱基和16个双碱基的平均距离指标和相对距离熵指标,以衡量DNA序列中所有单(双)碱基的分布情况。平均距离指标描述了相邻两个相同单(双)碱基之间其他碱基的数目,相对距离熵指标描述了每个单(双)碱基的距离分布的均匀性程度。在此基础上,分析了17个物种的线粒体基因组序列的单(双)碱基的分布情况,在线粒体基因组序列中,相邻两个碱基G的平均距离和相对距离熵比其它碱基的平均距离和相对距离熵大;双碱基CG的平均距离比其他双碱基的平均距离大。4.建立了核苷酸替代的转换-颠换进化动力学模型。在核苷酸替代动力学模型及研究结果的基础上,分析了不同核苷酸替代模型下核苷酸序列的相同对、转换对和颠换对频率随时间的变化规律,说明了转换颠换比和各种进化距离的特征,建立了核苷酸序列的转换-颠换进化模型,给出了模型中各个参数的确定方法及其生物学意义。和传统的核苷酸替代动力学模型相比,该模型优点在于更加简单,由核苷酸替代阵或核苷酸替代路径图可以直接得到,而且这个模型很容易给出DNA序列的进化距离。