论文部分内容阅读
大多数人类和动植物的重要性状都是多基因控制的数量性状,研究数量性状对人类复杂疾病防治和动植物遗传改良具有重要意义。目前,最常用的数量性状研究方法是全基因组关联分析(genome-wide association studies,GWAS)。应用研究表明,GWAS分析非参数检验方法是对GWAS的有益补充。与单标记扫描参数方法相比较,在数量性状表型非正态分布和等位基因频率偏低情况下,非参数检验方法的优势尤其明显。然而,目前的GWAS非参数检验方法也存在一些问题,例如,假阳性比例特别高,QTN效应无法估计以及大效应QTN的检测功效不如GWAS单标记扫描参数方法。为了克服这些缺点,利用Jonckheere-Terpstra非参数检验统计量的精确分布性质、多位点模型能提高QTN检测功效以及压缩估计方法既能克服GWAS非参数方法假阳性率高又能估计QTN效应,提出了多位点Jonckheere-Terpstra非参数检验GWAS方法(mJTGWAS)。利用拟南芥实际基因型数据,通过6个模拟QTN效应值和不同的遗传背景(无、多基因和上位性)获得各个体的模拟表型值,由Anderson-Darling非参数检验GWAS方法(ADGWAS)、有效混合模型关联(EMMA)、Jonckheere-Terpstra非参数检验GWAS方法(JTGWAS)和mJTGWAS四种方法同时分析每一模拟样本,重复1000次,获得QTN检测功效、位置和效应估计值,以比较新旧方法的优劣。将验证后的新方法用于6个拟南芥开花时间相关性状和3个玉米重要性状实际数据的分析,进一步验证新方法的有效性。主要结果如下:1)将表型观测值的结数据删除后按大小排序,取最大与最小各50个表型观测值(若删除后表型观测值个数小于100,则全部取出),对这些取出的个体观测值和每个SNP标记进行Jonckheere-Terpstra精确检验;对每个标记检验概率P值从小到大排序,将样本容量2至7倍的小概率标记同时放入多位点遗传模型中,通过经验贝叶斯方法和似然比检验获得与性状关联的SNP及其相关参数。这称为基于Jonckheere-Terpstra非参数检验的多位点全基因组关联分析方法,简称mJTGWAS。2)Monte Carlo模拟研究表明:在样本容量199条件下,新方法的6个模拟主效QTN 平均检测功效分别比 ADGWAS、EMMA 和 JTGWAS 高 4.02%、18.69%和 2.32%,多基因背景下分别高7.84%、22.75%与18.55%,上位性背景下分别高0.7%、17.08%与4.86%;新方法的6个模拟主效QTN效应的均方误差分别比mrMLM和EMMA低0.02与0.47,多基因背景下分别为0.01与0.50,在上位性背景下分别为0.01与0.51;新方法的假阳性率分别比ADGWAS、EMMA和JTGWAS低0.58%、0.02%与0.30%,多基因背景下分别低0.71%、0%与0.36%,上位性背景下分别低0.87%、0.01%与0.56%;纯主效QTN模拟试验中,新方法的运算时间(9.30小时)比EMMA少用59.47小时。这表明新方法可提高关联分析QTN检测功效与可信度,计算效率高。多位点模型不需要多重检验Bonferroni矫正。3)用新方法和EMMA方法同时分析了拟南芥6个花期相关性状,用新方法和ADGWAS方法分析了玉米3个重要性状。结果表明:新方法分别检测到51和36个显著关联SNP,比EMMA方法和ADGWAS方法分别多了 42和2个。在这些显著关联SNP与相关性状多元回归模型的BIC值中,新方法的BIC值最低;在显著关联SNP标记附近,新方法发掘到拟南芥性状相关的31个已知基因和玉米性状相关的5个QTL,分别比EMMA方法和ADGWAS方法多了 25个和1个。这说明新方法的模型适合性最好,检测基因的能力最强。