论文部分内容阅读
黄瓜(Cucumis sativus L.)是全球广泛种植的重要蔬菜作物,也是研究植物维管束生物学和性别决定的模式物种。前人基于群体基因组学数据对黄瓜种内的单核苷酸多态性(SNP)、插入缺失(InDel)等遗传变异进行了系统阐述,但却发现单一参考基因组限制了结构变异(SV)和功能基因的全面深入研究。三代测序技术的普及和其成本不断下降使得对多个黄瓜种质进行全基因组测序来分析种间全面的遗传变异成为可能,并揭示单一参考基因组所不能代表的遗传多样性。本研究利用三代测序技术对12个代表性黄瓜种质进行从头拼接和注释,详细分析了其遗传变异,发现了多个影响基因功能的结构变异,对黄瓜基因组的演化提出了新的见解,最终构建了黄瓜泛基因组并揭示了种内核酸序列和蛋白编码基因的集合。全文主要结果如下:1.利用三代测序技术显著提高了9930黄瓜参考基因组的质量:Contig N50值为8.9 Mb,是上一版本的234倍,并额外拼接出29.0 Mb序列,大部分为基因间区重复元件,极大提高了LTR-RT的拼接质量。构建了世界范围内代表性11份黄瓜种质的染色体级别高质量参考基因组序列:基因组大小为234.6–251.1 Mb,Contig N50为1.7–5.3 Mb,预测基因数目为24,490–26,033,为全球黄瓜研究人员和植物比较基因组学研究者提供了重要信息资源。2.确定了12个黄瓜参考基因组之间的基因对应关系,并鉴定了全面的遗传变异及其对基因功能的影响。共鉴定出290万个SNP、140万个InDel和56,214个SV(包括插入、缺失、倒位和易位),第一次在黄瓜中区分了典型的插入缺失型SV和比对断点模糊的复杂SV。共有2,626个影响编码基因CDS的SV,且有2,598个SV可能与驯化相关。多个前人报道的可能控制重要农艺性状的SV都能够在本研究产生的变异数据集中找到,本研究还提出了一些值得后续研究进一步验证和分析的变异位点。3.12个黄瓜基因组中长末段重复反转座子(LTR-RT)的各超家族(Copia,Gypsy和Unknown)含量和家族组成表现出高水平多样性。其中,鉴定出了多个某类黄瓜特有、可能发生过扩张或收缩的家族,可能在基因组中行使一定功能。利用Hi-C数据对野生和栽培黄瓜的染色质构象进行分析,确定了前人报道的野生和栽培黄瓜间6个大片段倒位,并鉴定到1个新的倒位变异,同时确定了这些变异在4个黄瓜类群12个黄瓜中的存在与否。结合利用单拷贝同源基因构建的黄瓜种内系统发生关系和甜瓜基因组相关信息,推测这些染色体重排事件是在黄瓜从野生到栽培的驯化过程中逐渐发生的。4.鉴定出了809个在11个黄瓜种质中存在,却在9930参考基因组中缺失的基因。这些基因的功能主要富集于染色质构象调控等方面。结合包含26,822个基因的黄瓜泛基因组,这些数据能够使基因组更好地指导黄瓜育种工作。综上,本研究构建了12个代表性黄瓜高质量染色体级别参考基因组,为植物比较基因组学提供了重要信息资源。详细阐述了黄瓜种间遗传变异,为黄瓜生物学、遗传学和分子育种研究提供了潜在的分析靶点。加深了对黄瓜种内基因组演化的理解,为后续甜瓜属乃至葫芦科物种的系统发生研究奠定了基础。黄瓜泛基因组将成为目前单一参考基因组信息的重要补充。