论文部分内容阅读
简单重复序列(simple sequence repeat, SSR)的生物信息学分析是研究基因组进化、蛋白质功能以及遗传和环境相互作用等课题中一个的重要环节。相关研究表明,简单重复序列(SSR)在大多数真核生物的基因组中是普遍存在的,且重复次数因物种而不同。SSRs具有很高的可变性、显著的多态性和相对保守性的侧翼序列,一般为共显性遗传,其种类和数量还可能对翻译活动的水平产生影响,并且与基因组的进化相关。SSRs高度的可变性可能是在DNA复制、修复或重组过程中链的滑移错配引起的。随着研究的深入,发现SSRs能够影响生物体中染色质的结构‘、基因活性的调控、DNA的重组及错配修复系统,并在生物的进化过程中起着非常重要的作用。近年来,对于流感病毒的相关研究不少,涉及基因组学、蛋白组学、流行病学等诸多领域,但对于不同宿主的甲流病毒基因组中简单重复序列的相关研究却未见报道。本文对甲流病毒基因组中简单重复序列进行了生物统计分析,探索甲流病毒基因组中简单重复序列的分布规律以及产生分布规律变化的原因。流行性感冒是由流感病毒(influenza virus, IV)所引起的一种流行性疾病。流感病毒属正粘液病毒科,流感病毒属,包括甲、乙、丙三型,其中以甲型流感病毒所引起的流行性感冒危害最大。本文从编码血凝素(Hemagglutinin,HA)的基因作为研究对象入手,用生物统计学方法对其基因序列中SSRs进行分析。分析结果表明,甲流HA核苷酸序列中SSRs的分布存在一定的规律性,其相对丰度值与相对密度值存在很高的相似性,这些高相对丰度值和高相对密度值表明SSRs可能与HA基因极易发生点突变相关。其中的一些序列显示出对一些普遍出现的SSRs和一些较长SSRs的偏好性。我们推断,甲流HA序列可能对富含腺嘌呤(Adenine, A)碱基的重复单元具有一定的碱基偏好性。而SSRs越长,它整体重复单元的突变率可能越高,而稳定性也可能会越低。这可能是越长的SSRs所承受的环境选择压力越大和突变结果的稳定性越低导致了不可能在较小的HA序列中出现超长的SSRs。另据分析报道,在HIV病毒中SSRs也存在类似现象。比较两种分析结果发现,虽然二者都是病毒,但甲流病毒HA序列中却存在着大量的SSRs,尤其是大量的单碱基SSR的存在,说明在HA序列中单碱基SSR异常活跃。但二碱基SSR相对较少,这说明在甲流病毒种间SSRs的分布各有碱基重复单元的偏好性。