论文部分内容阅读
棉属共包括8个二倍体基因组(A-G,K组)和一个异源四倍体基因组(AD组),共计约53个物种,其中含46个二倍体物种和7个异源四倍体物种。长期以来,棉属系统发育及多倍体起源存在较大争议。本研究利用新一代高通量测序技术,测定和注释了棉属16个物种的叶绿体全基因组序列以及37个物种的转录组序列,同时结合数据库中释放的数据,对棉属叶绿体基因组进化。系统发育及全基因组复制事件进行研究,揭示棉属内部的物种分化及进化机制。主要研究结果如下:1、对33个棉属物种的40条叶绿体基因组序列进行比较分析,结果表明:棉属叶绿体基因组较为保守,全长变化范围为159,039-160,433 bp;具有典型的四分体结构(LSC、SSC和两个IR);共鉴定到2860个重复序列(长度>10 bp),其中F基因组长萼棉(G.longicalyx)的重复序列数量最多,为108个;E基因组物种司笃克氏棉(G.stockii)重复序列数量最少,为53个。棉属叶绿体基因组不同区域的变异水平存在显著差异,非编码区比编码区存在更大的变异;鉴定了10个高变异区域,即rpl33-rps18,psbZ-trnG(GCC),rps4-trnT(UGU),trnL(UAG)-rpl32,trnE(UUC)-trnT(GGU),atpE,ndhI,rps2,ycf1和ndhF,这些DNA分化热点区域为后续棉属物种界定研究提供了潜在的DNA条形码标记。棉属蛋白编码基因的选择压力分析发现,10个基因受到了显著的正向选择作用(atpB,atpE,rps2,rps3,petB,petD,ccsA,cemA,ycf1和rbcL),可能与棉属物种的适应性进化相关。基于叶绿体基因组的系统发育分析表明,棉属主要分为6个进化分支,与前期的研究结果类似,但二倍体C、G、K基因组物种互相嵌套在一个大的进化分支中,其进化关系仍旧没有解决。结合棉属物种的自然地理分布,推测可能是该属物种间近期的快速辐射分化导致的不完全的谱系筛选以及不同谱系间的渐渗/杂交所影响。2、陆地棉和海岛棉是目前广泛栽培的四倍体棉种,其半野生种系具有优质、多抗等优良特性,且与栽培种具有较近的亲缘关系。为了进一步全面分析棉属的起源和演化历史,对陆地棉半野生种、海岛棉半野生种及其近缘类群进行叶绿体基因组分析。基于78个叶绿体蛋白编码基因的系统发育分析表明,棉属物种仍然分为六个先前确定的进化分支;所有13个D组物种聚类为一个较高支持率的单系分支,而陆地棉及其七个半野生种具有较近的遗传关系,阔叶棉与陆地棉的亲缘关系最近。同时,所有异源四倍体棉属物种聚类为一个进化分支,A基因组物种与AD异源四倍体棉种亲缘关系最近,支持A基因组物种是四倍体棉种母本供体种的结论。基于分子钟理论的分化时间检测分析表明,棉属主要二倍体分支大约起源于7.1百万年前(Mya),与前期基于部分分子标记的研究结果相一致。3、利用37个棉属物种转录组数据及4个棉种全基因组数据,鉴别单拷贝直系同源核基因,构建系统发育树。结果显示,棉属各组物种基本形成了对应于各组的单系分支,尤其是C、G、K三个基因组物种各自形成单系分支,与基于传统分类的染色体组命名基本一致。推测棉属物种叶绿体基因组和单拷贝核基因间系统发育关系不一致的原因,可能是不同棉属物种间近期频繁的杂交/渐渗以及不同基因标记间差异化的进化速率和不同的遗传背景特性所致。4、全基因组复制(WGD)是真核生物进化的核心,是植物多样化的重要进化力量。本研究对37个棉属物种进行转录组测序及de novo组装,共产生51,803,618-116,210,674条高质量的reads,组装得到41,480-78,402个unigenes。利用旁系同源基因Ks值的分布式样,检测出棉属物种发生了两次全基因组复制事件,比较古老的一次复制事件发生在上新世早期,约31.88-38.25 Mya;较近一次的复制事件发生在2.0-6.59 Mya,这些频繁的全基因组加倍事件可能加速了棉属的物种形成和多样化。