论文部分内容阅读
栗属(Castanea Mill)是隶属于壳斗目壳斗科(Fagaceae)的重要经济树种。中国栗属物种因其良好的抗病特征在世界栗属植物中占据重要地位。目前,对栗属植物的研究主要集中在形态学和遗传多样性方面的研究,对栗属植物和壳斗科植物的叶绿体序列的比较基因组学研究有助于增进栗属植物起源进化、系统分类及基因组学多样性等方面研究,并为更深入了解认识和利用壳斗科植物。叶绿体基因组是研究物种进化和重建被子植物系统关系的传统方法之一,而在此类分析中的频繁使用叶绿体基因组是基于其单亲遗传的简单保守结构:通过母系的单亲遗传。在本研究中利用高通量二代测序技术对中国特有的栗属植物中国板栗(Castanea mollissima)、茅栗(C.seguinii)、锥栗(C.henryi)进行叶绿体基因组测序、组装与注释。同时对前期NCBI Gen Bank数据库已公布的栗属叶绿体基因组序列进行下载。利用现今快速发展的生物信息学方法对所选序列进行基因组特征、遗传变异、分子标记开发、系统发育关系及选择基因位点等比较基因组学分析研究。研究结果将对世界栗属植物以及壳斗目的叶绿体基因组提供更多有价值基础数据和依据。主要研究内容与结果如下:1)栗属植物叶绿体比较基因组分析结合本研究组装的5条序列栗属植物与下载得到的3条栗属叶绿体基因组序列包括美洲榛果栗(C.pumila)四个栗属物种进行比较基因组学分析。栗属植物的叶绿体全基因组长度大小范围从160,805bp(C.mollissima2)到161,010bp(C.seguinii2)。基因组注释结果显示:所有栗属植物个体的叶绿体基因组注释均有130个功能基因,其中包括37个t RNA的基因(IR区域中有7个基因)和8个r RNA的基因(均位于IR区域中),单拷贝基因数量为116个。其中,板栗两个个体中发现了假基因ndh D,在C.henryi1中发现了假基因ndh K。除了美国榛果栗(C.pumila)中ycf1的为编码基因,在其它栗属序列中ycf1基因均为假基因。重复序列分析结果显示:栗属植物叶绿体基因组序列包含的简单重复序列(SSR)数量范围从108个到120个,平均为每条基因组序列116个简单重复序列。在此基础上,我们对获得的简单重复序列进行统计比较分析,设计了17对栗属叶绿体SSR引物,将用后续栗属植物群体遗传学方面的研究。栗属植物共统计得到的散在重复序列共335次重复;串联重复整体数量较少,共有73次的重复统计。以中国板栗为参考栗属植物叶绿体基因组结构比较分析显示:栗属在IR/SC边界无明显差异。单核苷酸多态性位点(SNP)与插入缺失位点(Indel)等多态性位点统计表明:SC区的变异明显多于IR区的变异,且非编码区变异率明显高于编码区的变异率。编码区变异较大的基因分别为psbl、acc D、pet G、pet D、rpl2、ycf1、ndh A。非编码区变异较大的区域有25个区域。基因mat K,ndh D和rpo C2在进化过程中受到较强的正选择压力。滑动窗口得出三个编码区rpo B、rpl2、acc D和两个非编码区为trn K-UUU-rps16、pet A-psb J序列作为DNA候选条形码。以上序列片段进行系统发育树构建,提出栗属植物可使用基因mat K,ndh D和rpo C2、acc D、pet D、ndh A、rpo B、acc D、pet A-psb J等序列片段作为DNA条形码。系统发育树结果显示:中国栗属植物和美洲栗分别聚成一支。2)壳斗目叶绿体比较基因组分析对本研究前期已发表壳斗目物种共32叶绿体全基因组序列进行记录下载并对其序列特征进行统计与变异分析,有助于对壳斗目与栗属叶绿体基因组的系统发育关系的了解。研究结果发现:壳斗目各科物种的叶绿体基因组在序列基因数量、基因种类、基因顺序、各分区GC含量等方面都表现出相似性与差异性。壳斗目植物全基因组大小范围是从水青冈属(Fagus)的米心水青冈(F.engleriana)长158,346bp到栎属(Quercus)中的太鲁阁栎(Q.tarokoensis)长161,355bp达到最大值。共线性分析显示:在IR区发现重排现象,LSC区则与SSC区基本没有发生倒置重排,较为保守。五个数据集全基因组序列、编码区序列、反向重复区序列、长单拷贝区序列、短单拷贝区序列建立系统发育树结果显示:壳斗科物种聚为一个大枝,而其他三科(胡桃科、杨梅科、桦木科)聚为一大枝,而杨梅科物种和胡桃科物种此时又聚为一枝,说明其遗传关系更近。