论文部分内容阅读
微卫星,也称作简单重复序列,是一段由重复单元长度为1-6个碱基组成的特殊的DNA或RNA序列。然而,无论是统计生物学,还是实验生物学,关于微卫星序列的研究主要集中在原核生物和真核生物的基因组。病毒是一类微小的不能独立在自然环境中存活的生命体,只有寄生在活细胞内才能表现出生命特征。目前,病毒微卫星序列的相关报道相对较少,而且主要针对基因组较小(小于10 kbp)的病毒;在基因组较大(大于100 kbp)的病毒里,还没有关于微卫星的分布、组成的报导。疱疹病毒基因组中有很多重复结构并且基因组长度在125~295 kbp之间,是研究微卫星序列进化和功能的理想材料。因此,在这篇论文中,我们选择数据库中可用的56条疱疹病毒目的基因组作为研究材料,借助生物学、数学、统计学和计算机手段,研究并分析了不同重复序列在疱疹病毒基因组中的分布,组成。此外,我们还讨论了微卫星在疱疹病毒基因组的起源和进化中可能扮演的角色。本论文内容主要涉及以下方面:使用Perl语言编程从56条基因组序列中分别抽提出微卫星和复合型微卫星序列。统计并分析了基因组大小、GC含量、微卫星个数(CM)、复合型微卫星个数(CCM)、相对丰度(RA)、相对密度(RD)等统计量。皮尔逊相关性分析显示,基因组的GC百分含量和CM以及CCM之间都有显著的中等强度的相关性。然而,基因组的长度只和CM有中等强度的相关关系,和CCM几乎没有相关关系。出现在基因区的复合型微卫星明显多于出现在基因间区的复合型微卫星。总体来说,CCM随着微卫星复杂程度(组成复合型微卫星的单个微卫星的数量)的增加而减少,并且复杂程度很难超过4;当复杂程度大于10时,绝大多数的复合型微卫星出现在基因间区。在疱疹病毒目基因组中,微卫星的分布是物种特异性的而不是寄主特异性的。微卫星和复合型微卫星在不同基因组的分布差异有助于我们更好的理解疱疹病毒基因组的遗传多样性和生物进化。为了评估微卫星的分布在真实情况和随机情况下的差异,我们用Perl语言设计了一个产生随机序列的程序,产生的随机序列中A、T、G和C四种碱基的数量和对应的从数据库中下载的参考序列的四种碱基数量相同。在这个工作中,56条参考序列和56条随机序列的微卫星的相对密度(RD)被分别计算和分析。结果显示,微卫星的重复次数、重复单元的长度以及基因组的GC百分含量是影响微卫星形成的重要因素。和随机序列相比,微卫星的相对密度在参考序列中显著地增加了5.5个百分点。微卫星5.5%的扩增是疱疹病毒基因组的每一个区域微卫星增加的共同结果,特别是中间重复区(IR)和末端重复区(TR)。疱疹病毒的基因组和脊椎动物的基因组结构上有很多相似之处;从结构和微卫星的分布来看,TR和IR区域类似于脊椎动物的“端粒”和“中心粒”。在疱疹病毒基因组上发现的保守的(TTAGGG)n序列,可能暗示疱疹病毒和脊椎动物的(TTAGGG)n序列在起源上有一定的相关性。单纯疱疹病毒属的六条基因组序列被选为材料做全基因组比较分析,结果显示:这六条基因组在长独特区域(UL)和短独特区域(US)具有较高的同源性,这两个区覆盖了基因组90%以上的基因。低同源性的区域主要在IR和TR两个区域,该区域同源性较低是微卫星扩增的结果;同源性较低的区域主要有RL1,RL2,RS1和UL36这4个基因,这几个基因同源性较低可能与病毒感染寄主的第一个阶段的差异有关。本章的分析内容有助于我们了解微卫星在疱疹病毒基因组的起源和进化中扮演的角色。