论文部分内容阅读
动植物的许多重要性状是由少数主效基因和多数微效基因共同控制的,属于数量性状。为了在动植物育种中更好地改良和利用这些性状,需要剖析数量性状的遗传基础。全基因组关联分析方法是剖析数量性状遗传基础的重要方法。然而,这些方法检测QTN(quantitative trait nucleotide)的功效受数量性状表型分布、等位基因频率和单标记假设检验显著性阈值的影响。为提高检测功效,非参数方法日益受到重视。虽然已经有不少非参数关联分析方法可供利用,但是这些方法均未实施多基因背景控制,导致其假阳性率较高。为克服这一问题,对包括多基因背景效应的混合线性模型实施一种新的矩阵变换,使新模型只包含QTN变异和正态剩余误差;在新的遗传模型中,实施Kruskal-Wallis(KW)检验,以筛选与数量性状关联的潜在分子标记;将选择的少数分子标记效应放入多位点遗传模型中,利用经验Bayes方法估计这些效应,并对非零效应进行似然比检验,达到鉴定与数量性状关联的分子标记的目的。为检验新方法的有效性,模拟了 1000次重复的五组模拟试验资料:1)6个QTN与正态剩余误差;2)6个QTN、加性多基因背景效应和正态剩余误差;3)6个QTN、3对上位性QTN背景效应和正态剩余误差;4)6个QTN和对数正态剩余误差;5)6个QTN和logistic分布剩余误差,每个样本数据均用Kruskal-Wallis(KW)检验、经验Bayes与KW检验整合方法(KWeB)、基于加性多基因背景控制的KWeB方法(KWeBP)和有效混合模型关联(EMMA)四种方法进行分析,以研究新方法的性能。为了进一步验证新方法的性能,利用新方法重新分析了 10个拟南芥开花时间相关性状数据。在计算机模拟研究和实际数据分析验证了新方法后,研制了交互式界面R软件包。主要研究结果如下:1、全基因组关联分析遗传模型包含了群体结构、QTN效应、多基因背景效应和正态剩余误差。若群体结构的影响存在,通过数量性状表型观察值与群体结构的回归分析,可剔除群体结构的效应影响。然后,对矩阵B=λgZKZT+In实施谱分析,使B=(Q1∧r1/2Q1T)(Q1∧r1/2Q1T),用C=Q1∧r1/2Q1T左乘剔除群体结构后的遗传模型,则新模型只包含群体平均数、QTN效应和正态剩余误差,表明剔除了多基因背景效应的影响。2、在剔除了多基因效应的新遗传模型中,QTN效应的系数不是二歧的,而是连续的。为了使KW非参数检验得以正常进行,将这个连续的系数转换为二歧变量。若记较大的系数为1,较小的系数为-1,则变成了二歧变量。本文研究了系数平均数和中位数两种系数大小标准。结果表明:系数采用平均数作为标准时,QTN检测功效较高,参数估计值误差较小。因此,用平均数作为转换标准。3、在多位点遗传模型中,效应个数也是一个重要参数。进入多位点模型中的标记应当是与数量性状存在潜在关联的标记。这种标记就是在单标记全基因组扫描时概率最低的标记。在计算机模拟研究和实际数据分析时,分别选取概率最低的100和1000个潜在关联的标记进入多位点遗传模型的效果较好。当然,也可以利用AIC准则来选择进入多位点模型中的效应个数。4、Monte Carlo模拟研究表明:新方法KWeBP的6个模拟QTN平均检测功效在模拟试验1)中分别比KW、KWeB和EMMA高8.2%、10.9%和22.9%;在多基因背景下,分别高8.4%、13.3%和24.8%;在上位性背景下,分别高5%、13.3%和20.8%;对于logistic误差分布,分别高7.1%、11.3%和23.9%;在对数正态误差分布下,分别比 KWeB 和 EMMA高 12.9%和 22.8%,仅比 KW 低了 3.3%。参数估计值精度用均方误差来表示,均方误差越小表示参数数估计精度越高。新方法KWeBP的6个模拟QTN效应估计值的均方误差都小于0.1,KWeB比新方法略高,也基本小于0.1,EMMA方法的大都大于0.4。为了控制关联分析的高假阳性率,在单标记全基因组扫描中往往使用很小的显著性标准,例如EMMA使用的0.05除以标记个数。若假阳性率以0.1‰为单位,虽然KWeBP的显著性标准处在1e-4水平,但是所有模拟试验的假阳性率都小于2,EMMA的均小于5.0,KW的均大于45.0。这表明新方法在控制假阳性率方面是有效的。5、用KW、KWeB、KWeBP和EMMA四种方法重新分析了拟南芥10个开花时间的相关性状。结果表明:KWeBP方法检测到179个显著关联SNP,分别比KWeB和EMMA方法多了 59和141个,比KW方法少了 268个。若将这些显著关联的标记与相应的性状进行多元回归分析,则可计算相应模型的BIC(Bayesian information criterion)值。在这些BIC值中,新方法KWeBP的BIC值最低,表明其模型适合性最好。在这些显著关联SNP标记附近,新方法KWeBP发掘到拟南芥开花时间相关性状的已知基因57个,分别比KW、KWeB和EMMA方法多14、17和51个,这说明新方法的检测基因能力最强。此外,新方法还发现了一些其它方法未发现的新基因,例如,位于第一条染色体的ARF6和UFO基因,以及位于第三条染色体上的ARP5和FLK基因等。6、在R环境下,基于附加包RGtk2和gWidgetsRGtk2,并借助GTK+图形工具,将KWeBP新方法开发成相应的交互式界面R软件包。该软件包称为KWeBP包,可以在主流的Windows、Linux和Mac操作系统下运行,具有良好的平台适应性。同时,KWeBP包能够将分析结果可视化,具有强大的作图功能,可以绘制GWAS中常用的Manhattan图和QQ图。通过友好的图形用户界面(GUI)进行交互式操作,极大地方便了遗传育种工作者的使用。