论文部分内容阅读
甘蓝型油菜是由白菜和甘蓝经天然杂交而形成的异源四倍体物种。白菜和甘蓝的基因组在进化过程中都曾发生过三倍体化,因此油菜的基因组非常复杂,在油菜中用第二代测序技术大规模开发分子标记仍是一个挑战。为降低基因组复杂度,我们对包含189个自交系的油菜关联分析群体进行了双限制性内切酶相关位点DNA测序(ddRAD-seq)和高通量SNP基因型分析,并对油菜的遗传多样性、连锁不平衡(LD)和单倍型区块(HB)进行分析。此外,我们还对上述群体进行了重测序,开发了超高密度的SNP/InDel标记,并对开花期、含油量、芥酸和硫苷含量进行了全基因组关联分析,检测到大量显著关联位点;同时检测到基因组中与重要农艺性状相关的受选择的区段。主要研究结果如下:1.利用ddRAD-seq开发SNP并评估甘蓝型油菜LD和HB模式为降低基因组复杂度,本研究用ddRAD-seq技术,基于Illumina高通量测序平台对189份油菜自交系进行90 bp的双末端测序,富集含有酶切位点的序列。测序后每个自交系得到113-633万条reads,平均为268万条reads。我们在Universal Network-Enabled Analysis Kit(UNEAK)的方法上进行改进,建立一套基因型分析流程,包括tag的提取、网络的构建和等位tag的区分等三个主要步骤。用该流程对群体进行基因型分析,共获得19327个等位tag。每个tag为一个标记,随机取tag中一个SNP代表该标记。我们用基于LD的作图方法将15921个SNP定位到遗传连锁图上。这些定位的SNP有11326(71.1%)个能比对到Darmor-bzh基因组唯一的物理位置;比对到A和C亚基因组的SNP分别为4708个和6618个。我们用开发的10343个SNP(MAF>0.05)估算群体的LD水平。全基因组范围内LD衰退到背景水平(r2=0.26)的距离为1214 kb,A和C亚基因组的衰退距离分别为405 kb和2111 kb,不同染色体上LD衰退距离也存在很大的差异。我们共检测到361个长度大于100 kb的HB,覆盖基因组145 Mb。我们发现C亚基因组HB的总长度为112 Mb,远大于A亚基因组的33 Mb,这可能与育种过程中两个亚基因组不同的选择利用相关。本群体根据Structure分析结果可分为两个群P1和P2,分别代表半冬性生态型为主的中国材料和春性生态型为主的欧洲、加拿大材料。P1中A亚基因组的PIC值显著高于C亚基因组(0.255 vs 0.214),而在P2中C亚基因组的PIC值显著高于A亚基因组(0.275 vs 0.234)。P1中很多材料可能来自油菜与中国白菜杂交,白菜染色体片段的导入会大幅度增加A亚基因组的遗传多样性。我们检测到两个群有241个HB重叠,总长为91.2 Mb;其中有24个HB(5.3 Mb)的主要单倍型频率差值在0.4以上,说明两个群有很多区段同时都受到选择,而且其中少部分选择方向不同。同时还发现存在大量群特异的HB,P1特异的HB在A和C亚基因组中分别为16 Mb和38 Mb,P2特异的HB在A、C亚基因组中分别为19 Mb和31 Mb,可能是群P1和P2的材料为了适应当地特异的生长环境,或在育种过程中经历了不同方向的选择。2.油菜四个农艺性状的全基因组关联分析及选择区域的检测我们利用重测序在189份油菜自交系中开发了 382万个高质量的SNP/InDel,对开花期、含油量、芥酸和硫苷含量进行全基因组关联分析。混合线性模型共检测到与4个性状显著关联的109个位点,其中有56个位点可以在多年重复检测到,而且部分位点与前人研究重合。芥酸和硫苷的峰值信号直接位于对应的目标基因BnaC03g65980D(BnA8.FAE1)和 BnaC09g05300D(BnC9.MYB28)内,说明了关联分析定位精度高。在所有显著位点中,其他49个位点能在峰值信号侧翼300 kb范围内找到候选基因。根据全子集回归分析,关联分析检测到的每个性状每年所有峰值信号共同解释相应性状22.8%-95.0%的表型变异,平均为61.8%,解释表型变异值的大小可能与性状的遗传基础相关。油菜中低硫苷和高含油量常作为育种目标,因此控制这些性状有利方向的等位基因(有利等位基因)在育种中受到选择。我们观察到低硫苷含量和高含油量的自交系的有利等位基因数目一般都较多,而且表型值和有利等位基因数目有很强的相关性,R2值分别为0.88和0.51,表明我们可以将这些有利等位基因进行聚合而直接应用于育种。Liho和Bronowski是早期的育种材料,分别含有降低芥酸和降低硫苷的等位基因。通过估算它们和其他自交系基因组的后裔同样(IBD),我们检测到自交系中有利等位基因所在的一些基因组片段受到选择,例如BnA8.FAE1和BnA9.MYB28所在的区段。我们将主要为春性品种的P2作为参考,通过XP-CLR检测到中国半冬性材料中存在111个受选的区域,共覆盖基因组39.4 Mb,这些区域中有3个与关联分析检测到的农艺性状显著关联位点重叠,同时在选择区域内找到63个与开花期相关的基因,这些基因可能对不同生态型的分化有一定的作用。基因本体(GO)研究揭示了许多与农艺性状相关的GO类得到了显著的富集,例如脂质的生物合成和储存,对生物与非生物胁迫的抵御和保持正常的有丝分裂功能等。本研究检测到大量与油菜4个农艺性状显著关联的位点,同时鉴定了育种过程中有利等位基因所在区段的选择积累、中国半冬性油菜基因组的选择区域,为油菜的遗传改良提供一定的基础。