论文部分内容阅读
全基因组关联分析的应用到目前已经有近10年时间,在解析人类复杂疾病及动植物复杂性状的调控机制等方面发挥了巨大作用。在农业发展中,从首个基因组选择模型的提出到现在,已经有17年时间。基因组选择已经在动物育种,尤其是奶牛育种中发挥出巨大的作用。随着基因分型技术价格的降低,全基因组选择技术也将在植物育种中占据重要位置。遗传转化技术,基因组编辑技术以及全基因组选择技术将是未来育种领域三大主要技术。基因组选择将是精准农业必要的技术基础。全基因组关联分析和基因组选择技术在应用过程中,也遇到一些问题。随着对复杂性状的深入理解,目前的关联分析模型具有一定的局限性。包括:复杂性状由多基因控制,但现在常用的模型是单位点模型;对稀有等位基因的检测能力不强,通常直接忽略稀有等位基因;遗传效应通常包括加性效应,显性效应和上位互作效应等,但目前常见的是加性效应模型,包含非加性效应的模型较少;上位效应检测能力较低,时间复杂度较高,用时较长;群体结构和其他潜在未知的关联会导致假阳性;微效多基因效应和连锁不平衡导致统计上P值膨胀;遗传力丢失问题等;在基因组选择技术发展中,线性模型,贝叶斯类模型和机器学习模型是最主要的三类模型。线性模型中目前最常用基因组最佳无偏估计(gBLUP)模型,其他方法大多是基于此模型的优化,但与该模型相比,很少在各种条件下都显著的提高;针对不同的数据,贝叶斯类模型的准确率与线性模型可能会有一些差异,但很少观察到准确率明显降低。但贝叶斯类模型的时间复杂度较高,对于百万级别的标记,将会因其所需的时间过长而导致失去应用的价值;机器学习类方法也具有同样的问题;在软件方面,目前有基于R语言的各种软件包,和基于Linux系统的命令行软件,但是缺少能够方便育种工作者使用的图形化界面软件。本研究的目标在于:开发一种多位点关联分析模型,提高加性模型的检测能力并且降低模型的假阳性率;并通过优化算法,实现对加性效应和上位互作效应的联合分析。我们使用R语言对该模型进行编程,并将该R软件包发布在公共平台;对基因组选择准确率偏差的研究。我们在研究中发现,对于基因组选择准确率,不同的研究人员存在两种不同的理解,而这种差异可能会产生一定的偏差,我们将对准确率计算重新定义并比较它们之间的区别和可能产生的偏差;提供一种基因组选择图形化界面软件。我们将根据现有的研究基础,使用JAVA语言开发一种进行基因组选择分析的图形化软件的同时,再使用R语言重新编写,提供对应的R软件包,以方便育种家及相关科研工作者使用。本研究以一个酵母F2群体为对象,对关联分析模型进行测试,进而系统分析模型的表现;并对一个由中美36个重组自交系(RILs)组成的玉米NAM群体的开花期相关表型进行了分析等;我们利用拟南芥,玉米,小鼠和松树四个物种的数据对基因组选择准确率的偏差进行了研究。本研究的主要结果如下:1.一种新的多位点混合效应关联分析模型(HDGENE)。该模型首先利用逐步回归对基因组进行单位点检测,然后利用多位点混合效应模型EM-Bayesian LASSO对显著的位点进行检测,从而可以控制假阳性;EM-Bayesian LASSO模型依然显著的位点,将作为协变量加入到逐步回归模型中进行迭代,该步骤可以提高分析的检测能力。因此,HDGENE模型既可以提高检测能力,也可以降低假阳性。为了提高模型对大数据的处理能力,首先通过利用基因组的连锁不平衡,对基因型数据进行降维;其次,对逐步回归模型进行了算法优化,降低算法运行时间。优化后的模型,可以实现全基因组两位点上位互作分析。2.EM-Baysian LASSO模型的检测能力。通过对复杂表型的模拟,在我们模拟的情形下,EM-BaysianLASSO 模型具有 80.6%的检测能力(Power);而且 EM-BaysianLASSO 模型对大于5%的位点具有较强的检测能力,接近100%,标记解释的表型方差越低,检测能力越差;同时,发现EM-BLASSO模型对效应值的估计是有偏的。3.HDGENE加性模型具有较高的Power。利用酵母F2群体模拟的表型分析发现,HDGENE平均检测Power达到71.9%;同时具有与EM-Bayesian LASSO模型相同的特点,对效应较高的位点具有良好的检测能力。但是位点解释的表型方差越低,检测的Power就越低。同时,HDGENE加性模型的假阳性率(FDR)较低,仅7.0%;且假阳性位点解释的表型方差低于1%。4.HDGENE加性模型与现有模型的QTCAT模型相比,QTCAT模型的Power为52.2%,明显低于HDGENE模型,同时假阳性率为8.8%,略高于HDGENE模型。5.HDGENE上位效应模型具有较高的Power。同样利用酵母F2群体的进行模拟,模拟数据分析表明,HDGENE上位效应模型检测的Power达到87.8%,高于R/QTL软件包中互作模型的75.7%;但同时假阳性率达到13.9%,高于R/QTL的3.2%。6.上位效应对玉米的开花期有一定的贡献。玉米NAM群体的开花期数据分析表明,虽然我们利用混合模型估计的遗传力较低,但是我们利用HDGENE模型发现较多的互作,并且检测到11对互作位点,它们解释的表型方差均在10%以上。7.基因组选择准确率的重新定义。根据交叉验证的特性,我们对重新定义了两种准确率,分别为Hold和Instant准确率。并发现Hold及Instant准确率都存在理论上的偏差,实际使用过程中,在一定条件下可以使用Instant准确率;在特定条件下,为了避免较大的偏差,需要对Instant准确率进行校正。8.iGS软件的开发:基于JAVA语言开发了基因组选择图形化界面软件;同时编写了R软件包。该软件包括gBLUP,EM-Bayesian LASSO以及多随机效应混合模型。本研究新开发的关联分析模型以及iGS软件将会对动植物育种提供一定的帮助。