论文部分内容阅读
比较基因组学的主要目的是利用种间序列的比较分析来发现某谱系基因组中重要的功能区域。近几年DNA序列的迅速膨胀,包括基因组,转录组,外显子组等数据,为比较基因组学的研究提供了前所未有的机遇,同时为解决进化生物学的核心问题—生物是如何适应环境的—提供了丰富的研究材料。适应性进化既是自然选择学说的重要理论依据,也是自然选择学说的主要研究对象。随着分子进化研究的发展,在分子水平检测自然选择的信号并寻找与物种特异表型相关的基因成为了探讨物种适应性进化的常用手段。
随着测序技术的发展,目前大量的基因组或转录组序列都是从短片段中拼装而来。尽管对短片段拼接的算法在不断更新与完善,但是拼接过程中仍难以避免拼装错误的发生。基因组拼装完成后,后续的分析同样会产生一些错误,比如基因注释错误等,这就使最后得到的基因序列中可能出现一段错误的片段,进而在同源序列比较时产生低质量的序列比对。目前人们已经广泛认识到比对错误对检测正选择造成的假阳性现象,因此,如何去除序列中的非同源片段等造成的比对错误成为了大范围检测正选择基因首先要解决的问题。本文提出了一种利用滑动窗口和随机抽样来甄别比对错误的方法(AlignTrim)。经过模拟测试发现,我们的程序能删除95%以上的错误,且具有非常低的误删率(小于0.5%)。利用AlignTrim处理后的序列比对能够将正选择假阳性降到5%以下,显著优于其他同类程序,如Guidance和Gblocks。AlignTrim非常适用于在大规模检测正选择基因时对序列比对的处理,尤其是适用于由于基因组测序覆盖度不高等可能引起低质量的序列等情况(第二章)。
基于AlignTrim对序列比对的处理,我们随后检测了海洋哺乳动物水生适应的相关基因。鲸目动物大约于50个百万年以前与现今的偶蹄目祖先分化开来。它们的“二次入水”事件是哺乳动物进化史上一次非常罕见的转变,生活史由陆生完全转变为水生。为适应水生生活,它们在表型上发生了很多变化,例如流线型的身体,增厚的皮下脂肪层等。但是,这些特异表型的分子基础还不是很清楚。近来,海豚基因组的发布,为我们探讨哺乳动物水生适应的分子机制提供了研究材料。通过将海豚基因组与陆生物种的基因组进行比较,我们检测了海豚中发生正选择的基因。由于海豚的基因组覆盖度并不高,仅有2.59×,为排除序列比对中出现的错误片段,我们利用新近开发的AlignTrim对其进行了质量控制。最后发现,这些正选择基因能够显著地富集在诸如肌肉收缩、脂肪转运与定位、ATP酶、感知声音等功能中。我们在文中讨论了这些基因与海豚特异表型的相关性,并总结出这些基因的适应性进化很可能部分地揭示了哺乳动物水生适应的分子基础(第三章)。
动物的水生适应主要涉及两方面:运动和呼吸。鱼类的呼吸都是靠鳃进行,种间差异不明显,而在运动方面却不同。有的鱼类需要洄游几千里,甚至还要改变渗透调节机制,而有些鱼类则并不需要洄游,两者之间的能耗差异非常大。线粒体是细胞的“能量工厂”,它既能产生运动所需的自由能,还能产生热能以维持体温。正是由于线粒体这两方面功能上的重要性,我们提出线粒体DNA可能并不像传统中认为的那样是中性进化,而是受到了不同程度的选择压力,且压力大小与物种对能耗的需求有关。为探讨线粒体蛋白的进化模式是否与鱼类不同的生活史相关联,我们对401条硬骨鱼类线粒体基因组进行了分析,最后发现不洄游的鱼类其线粒体基因上积累更多的非同义突变,而寒冷气候下的鱼类则比热带鱼类积累了更少的非同义突变。与此不同的是,与能量代谢无关的基因并没有表现出这种趋势。线粒体基因特异的进化模式表明个体能耗对线粒体功能(自由能和热能)影响着动物线粒体基因的进化(第四章)。由此可见,线粒体蛋白特定模式的进化同样在动物水生适应过程中起着重要作用。
本文在当前基因组数据膨胀的背景下,探讨了如何有效排除序列质量问题对检测正选择信号的影响,从而提高正选择基因的检测准确率,并利用改良后的方法,基于线粒体基因组和核基因组探讨了自然选择与动物适应性进化的关系,为阐明哺乳动物及鱼类适应水生环境的分子机制打下了基础。