论文部分内容阅读
在全基因组关联分析中,由群体分层、家系结构和亲缘相关性所导致的关联检验统计量膨胀增大了数量性状基因定位的假阳性率。目前流行的做法是用基因组控制去度量和校正群体结构和其他混杂因子的影响。基因组控制方法很多,如群体分层检测、遗传祖先推断、基于家系的关联检验和混合模型关联分析,而且各具优势。相比之下,混合模型关联分析方法更加综合和有效。如今,高效率、低成本的全基因组重测序技术能够产生几乎全部的多态性标记,加之实验样本也在不断扩大,较低的计算效率阻碍了混合模型关联分析方法的有效应用,尽管一系列简化的混合模型关联分析方法陆续地应对,如GRAMMAR、EMMAX、FaST-LMM和BOLT-LMM等算法。最简单的全基因组关联分析方法是逐个标记与表型间的简单线性回归分析法。在此基础上,线性混合模型视高通量标记的联合遗传效应为随机效应,考虑了检验标记以外的剩余多基因的影响。本研究在线性混合模型的基础上,通过实现亲缘关系矩阵的谱分解使相关的个体间随机效应相互独立,建立起与线性混合模型等价的线性回归模型,其自变量是实现亲缘关系矩阵的特征向量与特征根组成的对角矩阵的乘积。由于该回归模型为饱和模型(自变量数等于样本数),所以逐个标记全基因组关联分析时,需要根据基因组控制目标或Q-Q图选择自变量即实现亲缘关系矩阵的主成分个数。我们将提出的新方法称为优化基因组控制的主成分回归法。与基因组控制的主成分分析相比,新的优化方法不仅仅局限在对前几个主成分的校正,更重要的是具有与线性混合模型等价的效果。与此同时,新方法不仅适用于连续正态的数量性状,也很容易推广到复杂的二岐性状,间接实现了复杂疾病性状的全基因组混合模型关联分析。两类性状全基因组关联分析的不同之处在于,连续正态数量性状的表型值可以直接通过主成分进行校正,而二岐性状首先需要通过广义线性模型选择主成分,然后再将选择的主成分作为修正变量放入该模型中。分别基于小鼠和玉米基因组数据集,模拟了不同数量QTNs条件下的正态数量性状。计算机模拟试验表明:(1)优化基因组控制的主成分回归法在最佳的基因组控制条件下,QTNs检测效力略低于FaST-LMM算法。但随着QTN数目和资源群体规模的增加,该方法的QTNs检测效力越来越接近FaST-LMM算法。(2)随机抽取部分标记计算实现亲缘关系矩阵,新的优化方法依然能够达到最佳的基因组控制效果,而FaST-LMM算法不能很好的校正混杂因子。对虹鳟(Onchorynchus mykiss)生长性状进行全基因组关联分析,其结果显示:用优化基因组控制的主成分回归法分别检测到10个、1个和1个与虹鳟体高、体长和体重性状相关的主效QTN,其基因组控制分别为1.023、1.031和1.009。用FaST-LMM算法分别检测到13个、0个和0个与虹鳟体高、体长和体重性状相关的主效QTN,其基因组控制分别为1.012、0.958和1.017。该结果证实:(1)优化基因组控制的主成分回归法比FaST-LMM算法更好地校正了混杂因子。(2)对于不同性状,新方法检测到的QTNs并不总是少于FaST-LMM算法检测到的QTNs。