论文部分内容阅读
植物的叶绿体和线粒体分别是植物细胞中光合作用和呼吸作用的执行中心,它们是生物依赖环境生存的基础,也是地球碳-氧循环的重要媒介。自内共生作用以来,叶绿体和线粒体基因组伴随着植物由单细胞藻类到被子植物的进化历程而发生了各种复杂的基因组变异。高通量基因组测序技术的迅猛发展,使得大量植物细胞核及细胞器基因组得以测序,为我们提供了更多机会去深入了解在植物的进化过程中细胞器基因组的变异规律,也为今后在全基因组的水平上了解细胞器在植物执行光合和呼吸的作用过程中所发挥的生理功能提供了基础。在本论文中,我们首先对蔷薇科一种重要的木本油料作物青刺果(Prinsepia utilisRoyle)的叶绿体全基因组进行了测序和组装分析。其序列总长度为156 328 bp,编码131个基因。将该序列与蔷薇科其他植物的叶绿体全基因组序列一起进行的比较基因组学分析结果显示,这些基因组在结构、基因排列顺序、必需基因含量及相应的基因功能等方面都非常相似。我们还分析了叶绿体基因组不同区域、不同功能的基因的序列特征,这些变异规律不同的序列能够作为分子标记,在不同分类水平上的进化研究中发挥重要的作用。通过对被子植物部分代表物种叶绿体基因组的比较分析,我们发现叶绿体基因组中大部分序列的变异度都与该序列的碱基组成之间存在明确的相关性,即cpDNA序列的GC含量越高,该序列越趋于保守(如IR区、rRNA基因、matK基因等);反之GC含量越低,该序列越趋于变异(如cp-SSRs和InDels多数以PolyA和PolyT为主)。这种相关性普遍存在于单子叶植物和双子叶植物中,可以在很大程度上解释植物叶绿体基因组的变异进化规律,并且可以用于适度指导叶绿体分子标记的选择和开发。为了研究植物线粒体基因组的变异规律,我们对禾本科亚洲栽培香稻(Oryza aativa ssp.aromatic)的线粒体基因组和细胞核基因组进行了组装和分析。其线粒体基因组大小为498 676 bp,编码64个基因;细胞核基因组为336 Mbp,编码39 860个基因。基因组水平的比较分析发现,植物线粒体基因组内存在着大量的序列重排和重复序列的变异,表现为较差的基因组共线性,而其蛋白编码基因却是相对保守的。此外,我们还发现水稻线粒体基因组也通过水平基因转移整合了来自叶绿体等基因组的基因,同时,它还转移了大量的基因组序列到细胞核染色体上。在此基础上,结合前人有关线粒体基因组的其它发现,我们提出了新的植物线粒体基因组功能和变异模型,即植物线粒体基因组在被子植物进化过程中,充当了水平基因组转移的核心载体。它首先通过重复序列介导的基因组融合的方式,捕获自身或者其它物种的基因甚至是完整的基因组,再将多余的基因组片段转移到细胞核染色体中,从而增加了被子植物核基因组的多样性和复杂性,为被子植物适应环境变化所需的多样性进化提供了基础。该模型也解释了被子植物线粒体基因组在形态、大小、拷贝数以及结构上的复杂变异产生的原因。高通量测序技术的不断进步使越来越多的环境基因组学大数据被释放,然而随着测序成本的降低,如何深入挖掘、充分利用这些原始数据成为阻碍其发展的新瓶颈。在以上植物叶绿体和线粒体基因组学分析方法的基础上,我们继续摸索改进数据分析流程,形成了一套完整的细胞器基因组解决方案——即从动植物总DNA或总RNA测序数据中,直接获取完整的植物叶绿体和动植物线粒体基因组序列。我们利用来自水稻(Oryza sativa)3000基因组测序项目的部分原始数据,完整拼接出92个叶绿体全基因组;并对其它一些重要植物如谷子(Setaria italicaa)、青狗尾草(Setaria viridis)、梅花(Prunum mume)、拟南芥(Arabidopsisthaliana)等的叶绿体基因组,19个不同品种西瓜(Citrullus lanatus)的线粒体基因组,以及动物如黑狐蝠(Pteropusalecto蝠的线粒体基因组进行了组装分析。这些结果证实了对基因组大数据进行挖掘利用的重要性和技术可行性,为将来更多环境生物学大数据的分析做了铺垫。最后,我们对一种形成于大约一亿年前的琥珀所包含的内含物进行了 DNA提取的初步尝试。尽管利用传统的CTAB提取方法暂时难以检测到目标DNA,但通过新的微量基因组测序技术,将有希望对古老琥珀中的DNA进行基因组序列的测定和分析,为我们进一步分析物种的起源和进化提供新的思路。