论文部分内容阅读
植物的细胞器(叶绿体和线粒体)基因组是植物全基因组的重要组成部分,在系统进化、物种鉴定、核质互作、基因工程等研究中具有重要作用。丹参(Salvia miltiorrhiza Bunge)为唇形科多年生草本植物,具有重要的经济和药用价值。当前有关丹参细胞器基因组的研究甚少,这在一定程度上阻碍了丹参相关研究的开展。目前高等植物细胞器特别是线粒体基因组的获取仍存在一定难度。本研究以丹参的全基因组测序数据为基础,对药用植物细胞器基因组的组装和分析进行了探索,主要研究内容和结果如下:1.本文提出了一套叶绿体基因组组装策略:先通过双向延伸叶绿体的两个保守基因获得叶绿体基因组骨架序列再对其碱基进行校正以获得最终序列。这一策略不需要分离叶绿体DNA,整个过程仅产生一个重叠群,降低了拼接复杂性。利用此策略,我们获得了丹参叶绿体基因组序列,为唇形科第一条叶绿体基因组序列。丹参的叶绿体基因组全长151,328bp,呈典型的四段式结构,编码131个基因,去除重复后为114个,包含80个蛋白编码、30个tRNA和4个rRNA基因;其基因组结构、基因顺序、GC含量和密码子使用情况与典型被子植物的叶绿体基因组相似。在丹参的叶绿体基因组中共检测到4对正向、3对反向和7条串联重复序列。基于30个菊分支物种的简单重复序列(SSR)分析发现这些物种的SSR绝大多数为多聚A或多聚T,在叶绿体基因组内呈不均一分布。比较基因组研究结果表明丹参与其他三个唇形目物种的叶绿体基因组之间整体相似性较好,但基因间区的变异较大。序列变异分析发现了菊分支10个变异最大的基因和10个最保守的基因,并筛选出6个可用于菊分支近缘物种系统进化研究的候选基因。序列变异分析也证实了叶绿体基因的进化同时受到位置效应和功能分类的制约。基于71个叶绿体蛋白编码基因的系统进化研究表明丹参在现有叶绿体基因组公布的菊分支物种中与芝麻关系最近。2.本文提出了一套基于混合拼接第二代和第三代全基因组测序数据获取植物线粒体基因组的策略:其原理得益于植物细胞器基因组拷贝数远高于核基因组的特点,先利用小规模的454测序数据富集来自细胞器基因组的PacBio测序读长(CLR)并进行错误纠正,随后根据已获得的叶绿体基因组序列滤除叶绿体CLR,最后将剩余的CLR组装成线粒体基因组。利用此策略,我们首次将第三代单分子测序技术应用于植物线粒体研究并获得了丹参线粒体基因组序列,为唇形科第一条线粒体基因组序列。丹参的线粒体基因组全长499,236bp,编码69个基因,其中包含44个蛋白编码、22个tRNA和3个rRNA基因。整条线粒体含有22个内含子,包括18个顺式剪接内含子、4个反式剪接内含子,分布于11个蛋白编码基因。基于CLR和SOLiD末端配对读长的线粒体基因组重组分析发现18对重复序列产生重组,其中最大的三对重复序列(2.2、3.1和3.6kb)介导产生的重组构象与参考构象比例基本相等。但第四对长度为674bp的正向重复序列其基于SOLiD数据的重组率是基于CLR数据的两倍多,这表明丹参线粒体内可能存在组织特异性重组事件。3.本文分析了丹参细胞器基因组之间的序列迁移。分析仅发现由叶绿体往线粒体的序列迁移,片段总长37,612bp,占丹参线粒体基因组总长的7.5%。共有26个迁移片段长度大于或等于100bp,其中最长的片段长度为16,684bp,是目前已知的第二大叶绿体序列连续性迁移片段,仅次于西葫芦线粒体中长度为18,534bp的叶绿体迁移片段。