论文部分内容阅读
分子系统发育分析是生物信息学的一个重要研究领域,系统发育树的推算可以重建祖先序列,估计现存生物的演化关系和分歧时间。序列比对是系统发育研究的第一步,序列比对后产生的间隔位点被理解为序列从共同祖先分歧时发生插入/缺失事件的位点。同源DNA多序列比对后的间隔代表这种特殊的DNA突变事件,在系统发育树重建过程中采用删除和忽略间隔位点的处理方法可能丢失间隔所包含的系统发育信息。为在分子系统发育分析中有效地融合间隔位点所携带的进化信息,与将间隔视为第5种状态的DNA进化马尔可夫模型的方法及其它特殊的编码方法不同,本文借鉴统计学中缺失数据的处理方法,分别提出以最近邻法和最大似然法选择合适的核苷酸插补间隔位点,对插补后序列再运用4-状态DNA进化马尔可夫模型估算序列间进化距离或重建系统发育树的方法。主要完成了下列研究,形成如下结论:1、针对忽略间隔位点可能造成同源序列间进化距离的偏低估计问题,本文依据最小进化原理,分别首次提出时间复杂度为O(ms)的核苷酸最近邻插补算法和时间复杂度为O(4,m-1s)的核苷酸最大似然法插补算法,用于替换同源DNA序列比对后产生的间隔。2、为分析核苷酸插补后对于同源DNA序列间分歧度估算产生的影响,通过对3组真实DNA序列在不同间隔处理方法下的距离估算进行对照测试,结果表明:5-状态的F81+gap和F84+gap模型不能有效融合间隔所携带的indel信息,反而更加低估序列间距离,改进的5-状态模型F81+gap’能在一定程度上减少序列间距离的偏低估计。本文提出的核苷酸最近邻插补处理方法和最大似然法插补处理方法均可以在一定程度上减少序列间距离的偏低估计,且两种插补处理方法下的进化距离估算仅存在细微差别。3、为评估核苷酸插补后对于系统发育重建中进化树拓扑和枝长估算的效应,通过对重复模拟DNA进化产生的30组虚拟同源DNA序列数据集,在不同间隔处理方法下采用4-状态的K80模型和最大似然法进行系统发育树的重建推算,对照分析表明:本文提出的核苷酸最近邻插补方法和最大似然法插补方法与传统的删除忽略间隔位点处理方法重建的分子系统发育树拓扑是一致的,符合本文提出的假设。而在进化树分枝长度估算的误差方面,本文所提出的两种核苷酸插补处理方法均小于传统的直接删除忽略间隔位点的方法。结论:本文提出的核苷酸最近邻插补处理方法和最大似然法插补处理方法能够融合DNA突变中的indel信息,减少序列间距离的偏低估计,减少系统发育树分枝长度的偏低估计,在一定程度上提高分子系统发育重建的精确度。