提高统计功效、精确度和计算效率的两种多位点全基因组关联分析方法

来源 :南京农业大学 | 被引量 : 0次 | 上传用户:dylwq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在生物医学、农业或者进化方面,大多数重要的性状在本质上是数量性状。这些性状的变异通常是由于多基因位点效应和环境因素引起的。了解这些位点的数目、位置、效应并鉴定这些位点,有助于新的生物学发现。全基因组关联分析研究需要在数百个个体的有限样本中检测大量的SNP,这意味着高维数据集中的变量选择问题。近来科技的发展可以产生上千万的庞大GWAS数据。虽然很多方法已经被提出来,但仍需要开发计算快速的算法,确保检测QTN的高功效、高精度估计和低假阳率。虽然许多进行了多基因背景和群体结构控制的单位点GWAS方法得到了广泛的应用,但是一些显著的位点不能够被检测到,并且一些检测到的位点效应无法估计。这是因为这些单位点的方法没有考虑多个基因标记对于某个性状的联合效应。另外一个问题是这些方法需要对显著性测验的阈值进行多重检验校正,而Bonferroni校正过于严格,漏掉了许多相关的位点。惩罚回归模型本质上是多位点模型,可以采纳一个不是很严格的显著性标准。惩罚方法考虑了多个基因标记联合效应对于某个性状的影响。同样,它们也可以将一些标记的效应压缩为零,因为通常只有很少的一个SNP子集是与目标性状相关联的。尽管惩罚回归模型具有这些优势,但是当标记个数是样本个数几倍大的时候,这些惩罚回归模型方法就不可实施了。在这种情况下,问题的解决方案在于首先减少标记的数目,然后再实施多位点基因模型压缩估计方法。我们在研究的第一部分强调了这个问题;我们发展了一个新的算法,可以减少SNP数目到一个适中的数目,然后在多位点基因模型中估计这些QTN的效应。我们使用一个迭代修正的确定性独立筛选方法,以减少SNP数目到达一个适中的数目。为了使QTN检测更精确,我们用EM-Bayesian LASSO估计所有被选择的SNP效应,这种方法称为ISIS EM-BLASSO算法。在第二部分研究工作中,我们是解决了在GWAS中检测大量的SNP与目标性状相关联的计算挑战问题。由此,我们开发了一种多位点GWAS的快速mrMLM方法,叫FASTmrMLM方法。我们通过GEMMA的思想,进行矩阵变换和恒等式加速了 mrMLM算法。目标方程和导数是以向量或者矩阵的形式来对每一个标记扫描,并转换成某个简单的方式,在每个优化的步骤进行简单而高效的估计。所有潜在关联的QTNs是通过多位点模型EM经验贝叶斯或拉索方法进行估计。我们进行了蒙特卡洛模拟实验来验证新方法(ISIS EM-BLASSO和FASTmrMLM)的有效性。我们从拟南芥数据中抽选了 SNP基因型,并设定了 6个QTNs。然后,我们在不同基因背景下模拟了表型值,包括没有多基因背景、加入多基因背景和加入上位性背景。在第一部分工作中,我们分别用ISIS EM-BLASSO、EMMA、SCAD、FarmCPU 和 mrMLM 方法进行了 1000 次的模拟研究。在第二部分工作中,我们分别用FASTmrMLM、mrMLM、FarmCPU、GEMMA和EMMA方法进行了 1000次的模拟研究。我们计算了功效、均方误差、假阳率和运行时间来验证我们的新方法。这些新方法的有效性进一步通过6个拟南芥开花相关性状进行了分析。主要研究结果如下:1.为了验证新方法ISIS EM-BLASSO,进行三次模特卡罗模拟实验,并将新方法与四种方法(EMMA、SCAD、FarmCPU、mrMLM)进行比较。其结果显示,在第一个模拟实验中,来自 ISIS EM-BLASSO、EMMA、SCAD、FarmCPU 和 mrMLM方法的6个模拟QTNs的平均功效分别为70.0,46.0,52.8,41.9和68.6(%)。其他的模拟实验也有同样的趋势。当ISIS EM-BLASSO和其它方法进行成对t测验时,在第一个模拟研究中 ISIS EM-BLASSO比EMMA、SCAD 和 FarmCPU 方法(P-value 等于0.001~0.007)具有显著高功效。虽然ISIS EM-BLASSO和mrMLM之间功效没有显著的差异,但是ISIS EM-BLASSO比mrMLM的功效略高。这就意味着ISIS EM-BLASSO对QTN的检测有最高的功效。在第一个模拟实验中,来自ISIS EM-BLASSO、EMMA、SCAD、FarmCPU 和 mrMLM 方法的 6 个模拟 QTNs 的平均MSE 值分别为 0.0812,0.5432,0.2030,0.2824 和 0.0934。当 ISIS EM-BLASSO 和其它四个方法进行成对t测验时,ISIS EM-BLASSO的MSE是显著低于EMMA和SCAD,而与其他两个方法(mrMLM和FarmCPU)相比没有显著性差异,但是ISIS EM-BLASSO方法的MSE略低于mrMLM比M和FarmCPU。所有的模拟实验都有同样的趋势。实际上,减少SNP的数量能够增加效应估计的精度和QTN的检测功效。尽管ISIS EM-BLASSO在QTN检测方面具有最高的功效,但是它相对于SCAD,EMMA,FarmCPU和mrMLM而言具有略高的类型1错误。然而,所有类型1错误都是低于0.04%的。在第一个模拟研究中,ISIS EM-BLASSO,EMMA,SCAD,FarmCPU 和mrMLM 的类型 1 错误分别为 3.25E-2,3.25E-2,1.9E-2,1.78E-2 和 1.99E-2,然而在第二个模拟实验中,假阳率分别为3.47E-2,1.66E-2,2.19E-2,1.74E-2和2.34E-2。就像上面描述的那样,ISIS EM-BLASSO是所有方法中速度最快的。ISIS EM-BLASSO仅仅用了 EMMA方法3%的时间,mrMLM方法16%的时间,SCAD方法20%的时间,FarmCPU方法50%的时间。新方法将扫描个数减少到一个适中的个数,因此减少了计算时间。ISIS EM-BLASSO分别检测到14,11,23,21,9和11个与6个研究性状显著关联的SNPs。每个性状检测到的SNPs进行了多元线性回归分析,并计算AIC和BIC值。ISIS EM-BLASSO方法几乎在所有性状中具有最低的AIC和BIC值,这表明被ISIS EM-BLASSO发现的SNPs相对于其他方法来说具有更好的拟合度。关于上述6个性状被检测到的SNPs附近已知基因的数目,ISIS EM-BLASSO,mrMLM,FarmCPU 和 EMMA 分别检测到了 67,22,15 和 13 个基因。ISIS EM-BLASSO比其它方法检测到了更多的已知基因。ISIS EM-BLASSO方法鉴定出了 50个新的基因。2.为了验证新方法FASTmrMLM,进行三个蒙特卡洛模拟实验,并将新方法与四种方法(mrMLM,FarmCPU,GEMMA和EMMA)进行比较。数值研究结果显示,FASTmrMLM花费了 mrMLM少于50%的时间。在第一个模拟研究中,FASTmrMLM,mrMLM,FarmCPU,GEMMA 和 EMMA 方法的运行时间(Intel Core i5-4570 CPU 3.20GHz,Memory 7.88G)分别为 6.25,13.77,5.12,2.57 和 68.77(小时)。它表明 FASTmrMLM 显著快于mrMLM。虽然 GEMMA和 FarmCPU 比FASTmrMLM具有更少的运行时间,但是它们的功效和参数估计的精度要比FASTmrMLM差。其它模拟实验显示了相同的趋势。在第一个模拟实验中,来自FASTmrMLM,mrMLM,FarmCPU,GEMMA 和 EMMA 方法的 6 个模拟 QTNs 的平均功效分别为68.8,68.6,41.9,46.0和46.0(%)。当对比了 FASTmrMLM和其它方法的成对 t 测验时,FASTmrMLM 与 FarmCPU,GEMMA 和 EMMA 方法(P-value 等于0.004~0.012)相比具有显著高功效。虽然FASTmrMLM和mrMLM方法之间没有显著的差异(P-value等于0.688),但是FASTmrMLM的功效比mrMLM略高。FASTmrMLM在QTN效应估计方面具有最高的准确性。在所有的模拟实验中,FASTmrMLM方法在检测QTN的方面都能够有效的控制假阳率。在第一个模拟实验中,来自 FASTmrMLM,mrMLM,FarmCPU,GEMMA 和 EMMA 方法的 6 个模拟QTNs 的平均 MSE 值分别为 0.0775,0.0933,0.2824,0.5467 和 0.5432。当对比了FASTmrMLM和其它四种方法的成对t测验时,FASTmrMLM的MSE值至少显著低于 GEMMA 和 EMMA 方法(P-value 等于 0.009~0.020)。虽然在 FASTmrMLM 和其它两种方法(mrMLM和FarmCPU)(P-value等于0.110~0.806)没有显著性差异,但是FASTmrMLM的MSE值是略微低于mrMLM和FarmCPU的。在所有的模拟实验中都有相同的趋势。因此,FASTmrMLM在估计QTN的效应值方面精确度是最高的。在所有的模拟实验中,FASTmrMLM方法在QTN的检测方面能够有效的控制假阳率。在第一个模拟实验中,FASTmrMLM,mrMLM,FarmCPU,GEMMA和 EMMA方法的的 FPR 值分别是 1.80E-2,1.99E-2,1.78E-2,3.25E-2 和 3.25E-2(%)。它表明FASTmrMLM基本上具有最低的FPR值,尽管一个更加不严格的选择标准被采纳。FASTmrMLM分别鉴定了与6个所研究性状关联的SNPs个数分别为17,15,14,17,14和15个。每个性状鉴定的SNPs进行了多元线性回归分析,-并且我们计算了相应的AIC值和BIC值。FASTmrMLM在几乎所有的性状中都具有最低的AIC和BIC值。这表明被FASTmrMLM发现的SNPs相对于其他方法来说具有更好的拟合度。FASTmrMLM,mrMLM,FarmCPU 和 GEMMA/EMMA 分别总共鉴定了 52,22,15 和13已知基因,在检测到的SNPs周围。新方法能够检测到26个新的基因。新方法与其他方法相比,检测到了更多前人已报道的基因。我们开发了两种稳定的GWAS方法。其中ISIS EM-BLASSO是一种可选择的多位点GWAS方法,而FASTmrMLM是一种快速稳定的多位点方法。
其他文献
在这篇文章中,我们用Abbes和Saito的分歧理论研究离散赋值环上概型的l-进层的临近闭链。论文的第一部分中,我们给出Deligne-Kato公式的一个新证明。Deligne-Kato公式是计算严格Henselian离散赋值环上相对光滑曲线上的l-进层的临近闭链的维数的一个公式。Deligne考虑了没有垂直分歧的层,之后Kato将其推广到任意的层。我的方法建立在Abbes和Saito的理论的基础
胚胎干细胞(Embryonic stem cell,ESC)在适当体外培养条件下具有无限自我更新能力以及分化成体内所有细胞类型的潜能。这些特性使得ESC在再生医学中具有广泛的应用前景。ESC的快速增殖能力能保障充足的细胞数目应用于临床治疗;而维持基因组稳定性对ESC在临床应用的安全性至关重要。因此,研究ESC独特的细胞周期调控机制以维持快速增殖,以及ESC在快速增殖的同时,如何维持其基因组稳定性,
飞秒激光在空气中的成丝现象是当前科研领域的热门话题,其复杂的物理机制以及巨大的应用潜力引起了人们的广泛关注。一方面,飞秒激光成丝过程中存在复杂的非线性过程,例如自聚焦、光致电离、自相位调制、自陡峭等,这导致飞秒激光在光丝内传输时脉冲形状发生复杂的时空演变;另一方面,脉冲性质的演化过程携带了成丝现象中非线性光学过程的重要信息。如果测量出飞秒激光脉冲在成丝中的演化过程,可以更加深入地了解光丝内部所发生
本文的主要结果是一些关于对相邻部分进行限制的分拆和有序分拆的等式,其中包括两个关于overpartition的Rogers-Ramanujan型等式,由Andrews给出的两个Rogers-Ramanujan型等式的组合证明,一个揭示了anti-lecture hall有序分拆和overpartition之间的深层关系的等式,以及对首部分限制的lecture hall分拆的生成函数式。欧拉分拆定理
本文主要研究的是排列和上升序列。有禁排列是由Knuth首先提出来的,并且它在过去的二十年间成为了比较活跃的研究领域。上升序列是由Bousquet-Melou,Claesson,Dukes和Kitaev在研究(2+2)-free偏序集时提出来的。上升序列与(2+2)-free偏序集,非负的上三角矩阵以及Stoimenow’s匹配有非常密切的关联。在本文中,我们主要关注021-有禁上升序列和132-有
保守的Paf1复合物是一个多功能的复合物。在酵母中由Paf1, Ctr9, Leo1,Cdc73和Rtf1组成,而人源Paf1复合物还包括Ski8。在转录延伸过程中,Paf1复合物与活性基因的启动子和编码区相联系。Cdc73和Rtf1对Paf1复合物与染色质之间的联系是必需的。此外,Paf1复合物与FACT, Spt4-Spt5和TFIIS之间的相互作用也能够调节Paf1复合物向染色质的募集过程。
学位
Borel归约是描述集合论中的—个基本概念,我们经常用它来比较不同等价关系的复杂度。在所有这些等价关系中,lp(p≥1)类型等价关系有着非常重要的作用。R.Doughter和G.Hjorth[9]证明了对1≤p≤q<∞,lp等价关系能够Borel归约到lp等价关系。这是一个漂亮的结果,但是我们仍然想知道lp(p≥1)类型等价关系究竟有多复杂,比如,S.Gao[13]提出对1≤p<∞,lp等价关系是
学位