论文部分内容阅读
基因是遗传信息的载体,描述了变化万千的生命形态。随着人类基因组计划的顺利完成和信息技术的飞速发展,越来越多的生物完全基因组序列可供人们来研究,这为我们从基因的角度来解读生物的奥秘提供了便利。但是要读懂这部仅由四个字母组成的生命“天书”,传统的实验观察手段就显得力不从心了,只能借助数学原理和计算机数据处理方法来高效、精确的进行生物序列分析。本文基于传统的序列特征参数——组分向量,提出了描述序列特征的新参数——组合多联体,分别用信息熵和离散增量作为距离函数对26种胎盘类哺乳动物和64种脊椎动物构建了系统进化树。全文共分四个部分:第一部分介绍了利用线粒体基因组构建生物进化树的研究现状和意义、信息熵的应用和发展历程及本文的主要工作。第二部分是本文的理论和方法。基于传统的序列特征参数——组分向量,本文提出了新的生物序列特征参数——组合多联体,并通过碱基关联分析,说明了组合多联体的意义;本文使用R软件,基于新对称相对熵和离散增量这两种距离函数,通过距离矩阵法构建生物系统进化树。第三部分,通过距离矩阵法对26种胎盘类哺乳动物和64种脊椎动物线粒体DNA数据进行分析,构建了生物的系统进化树。计算中,选用了三种特征参数来描述序列,分别是:6联体、组合6联体、6联体和组合6联体。在用新对称相对熵作为距离函数时,分别基于三种特征参数构造距离矩阵,并通过R软件对两组数据构建了生物系统进化树。结果显示,以组合6联体,特别是组合间距为57的组合6联体为序列特征参数时,得到的系统进化树要比以6联体为序列特征参数时分类更清晰、准确;在用离散增量作为距离函数时,分别通过三种特征参数构建了生物系统进化树,同样验证了组合多联体在进化树构建中的有效性。另外,通过两组结果的对比,发现用新对称相对熵作为距离函数,比相对熵和离散增量作为距离函数,构建的进化树更为合理、更接近物种的生物学分类。