论文部分内容阅读
测序技术的发展与测序价格的降低使得我们可以更加便利的获取群体基因组上的变异位点。基因组重测序数据累积带来便利的同时也为普通研究者使用提出更多挑战。序列变异数据库应运而生,这些数据库的产生使得群体变异数据可以更加方便的获取与使用。在获得序列变异数据与表型数据之后,再利用全基因组关联分析(GWAS)定位调控位点。然而,在关联分析之后如何将结果上升到基因层面依然存在不少问题,不能找到功能基因意味着我们很难对性状的调控机理有一个清楚的认识。水稻作为重要的粮食作物以及禾本科模式植物,拥有比较好的研究条件与应用价值。目前已经有非常多的水稻GWAS研究被报道,但这些研究显著位点的验证大都是根据已克隆基因展开,鲜有利用关联到的位点直接克隆基因的。其原因主要在于,水稻连锁不平衡区间较大,增加了候选基因筛选的难度,制约了下游研究的开展。因此,开发候选基因筛选平台,综合各种组学信息来甄别候选基因对于水稻的功能基因组研究是十分必要的。油菜作为重要的油料作物,属于异源四倍体,拥有A、C两个亚基因组,相比水稻更为复杂,功能基因组学研究更加匮乏。在水稻GWAS候选基因筛选平台的基础之上,构建油菜的GWAS候选基因筛选平台,可以有效扩展候选基因筛选平台的适用性。本研究以水稻和油菜作为模式,分别鉴定了两物种基因组序列变异,结合可用的表型性状,在两物种中搭建基因筛选平台并开展GWAS候选基因筛选工作。本研究的主要结果如下:1.水稻序列变异数据库的构建。基于水稻群体序列变异数据构建了水稻序列变异数据库RiceVarMap v1.0(http://ricevarmap.ncpgr.cn/v1)。通过对1,479份水稻低覆盖度重测序数据进行分析,共鉴定出6,551,358个SNP位点以及1,214,627个INDEL位点。基因型填补之后,数据整体的缺失率小于0.42%,补缺准确率大于99%。数据库包含丰富的查询函数以及多个实用工具。随后,基于更多的水稻品种的重测序数据构建了RiceVarMap v2.0(http://ricevarmap.ncpgr.cn/v2)。通过对于4,503份水稻重测序数据进行分析,一共鉴定出17,397,026个基因组变异位点(包含14,541,446个SNP位点以及2,855,580个INDEL位点)。相较于其他序列变异数据库,单纯的提供序列变异信息,RiceVarMap在变异对于基因功能的影响方面提供更全面、准确的结果。为了达到变异精准注释的目的,本研究整合了以下几方面的结果:1)使用snpEff,CooVar与PolyPhen-2对编码区的变异及错义突变进行效应评估;2)整合染色质开放区数据对非编码区变异潜在影响进行评估;3)整合GWAS结果,对与表型显著关联的变异位点提取出来。为了方便研究者使用,数据库提供了丰富的查询界面以及实用工具。基于bokeh库,RiceVarMap v2.0提供了多种可视化展示方式,帮助研究者使用变异数据进行浏览与查看。2.关联分析候选基因筛选平台的构建。利用多组学的数据,构建关联分析显著区段基因的综合评价函数。该评价函数主要分为4个部分:1)基因功能评估。利用基因的GO注释、保守结构域、基因差异表达等信息构建功能基因集,并使用支持向量机对每个基因是否与目标性状相关进行打分。2)基因CDS区域序列变异效应评估。基于基因CDS区域变异对蛋白序列功能的影响注释以及变异GWAS的P值对各个基因进行打分。3)基因表达水平效应评估。利用TWAS结果以及eQTL结果综合评价基因表达水平是否与目标性状相关。4)单倍型效应评估。使用SKAT软件计算各个基因与目标性状关联的P值。为了更好的筛选基因,本研究还构建了一系列可视化方法,将区段内的详细信息进行展示。3.关联分析候选基因筛选平台在水稻中的应用。基于RiceVarMap v2.0数据库中的变异数据以及之前收集的表型数据,利用关联分析候选基因筛选平台对水稻的抽穗期以及株高进行候选基因筛选分析。在对抽穗期的分析中,鉴定出Ghd7、Ehd1、OsBBX14以及OsMADS15等一批已克隆的抽穗期调控基因。在对株高的分析中,鉴定sd-1,Hd3a及Ghd7等位点。4.关联分析候选基因筛选平台在油菜中的应用。利用505份油菜群体的重测序数据,根据油菜基因组可用于基因功能注释的资源将候选基因筛选平台进行优化和扩展。在原有候选基因筛选平台的基础之上,利用极端表型特异k-mer搜索的方法,成功定位到芥酸调控基因FAE1,以及基因中的功能变异位点。通过多个物种、多个表型候选基因筛选平台的应用,充分说明了候选基因筛选平台的效能。该平台可以将区段内部的候选基因数目缩小,甚至直接定位到目标基因。我们期望序列变异数据库及候选基因筛选平台的建立可以帮助这些作物的功能基因组学研究及物种遗传改良。