基于多基因背景控制和Kruskal-Wallis检验的多位点全基因组关联分析KWeBP方法建立与软件开发

来源 :南京农业大学 | 被引量 : 0次 | 上传用户:itfwfp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
动植物的许多重要性状是由少数主效基因和多数微效基因共同控制的,属于数量性状。为了在动植物育种中更好地改良和利用这些性状,需要剖析数量性状的遗传基础。全基因组关联分析方法是剖析数量性状遗传基础的重要方法。然而,这些方法检测QTN(quantitative trait nucleotide)的功效受数量性状表型分布、等位基因频率和单标记假设检验显著性阈值的影响。为提高检测功效,非参数方法日益受到重视。虽然已经有不少非参数关联分析方法可供利用,但是这些方法均未实施多基因背景控制,导致其假阳性率较高。为克服这一问题,对包括多基因背景效应的混合线性模型实施一种新的矩阵变换,使新模型只包含QTN变异和正态剩余误差;在新的遗传模型中,实施Kruskal-Wallis(KW)检验,以筛选与数量性状关联的潜在分子标记;将选择的少数分子标记效应放入多位点遗传模型中,利用经验Bayes方法估计这些效应,并对非零效应进行似然比检验,达到鉴定与数量性状关联的分子标记的目的。为检验新方法的有效性,模拟了 1000次重复的五组模拟试验资料:1)6个QTN与正态剩余误差;2)6个QTN、加性多基因背景效应和正态剩余误差;3)6个QTN、3对上位性QTN背景效应和正态剩余误差;4)6个QTN和对数正态剩余误差;5)6个QTN和logistic分布剩余误差,每个样本数据均用Kruskal-Wallis(KW)检验、经验Bayes与KW检验整合方法(KWeB)、基于加性多基因背景控制的KWeB方法(KWeBP)和有效混合模型关联(EMMA)四种方法进行分析,以研究新方法的性能。为了进一步验证新方法的性能,利用新方法重新分析了 10个拟南芥开花时间相关性状数据。在计算机模拟研究和实际数据分析验证了新方法后,研制了交互式界面R软件包。主要研究结果如下:1、全基因组关联分析遗传模型包含了群体结构、QTN效应、多基因背景效应和正态剩余误差。若群体结构的影响存在,通过数量性状表型观察值与群体结构的回归分析,可剔除群体结构的效应影响。然后,对矩阵B=λgZKZT+In实施谱分析,使B=(Q1∧r1/2Q1T)(Q1∧r1/2Q1T),用C=Q1∧r1/2Q1T左乘剔除群体结构后的遗传模型,则新模型只包含群体平均数、QTN效应和正态剩余误差,表明剔除了多基因背景效应的影响。2、在剔除了多基因效应的新遗传模型中,QTN效应的系数不是二歧的,而是连续的。为了使KW非参数检验得以正常进行,将这个连续的系数转换为二歧变量。若记较大的系数为1,较小的系数为-1,则变成了二歧变量。本文研究了系数平均数和中位数两种系数大小标准。结果表明:系数采用平均数作为标准时,QTN检测功效较高,参数估计值误差较小。因此,用平均数作为转换标准。3、在多位点遗传模型中,效应个数也是一个重要参数。进入多位点模型中的标记应当是与数量性状存在潜在关联的标记。这种标记就是在单标记全基因组扫描时概率最低的标记。在计算机模拟研究和实际数据分析时,分别选取概率最低的100和1000个潜在关联的标记进入多位点遗传模型的效果较好。当然,也可以利用AIC准则来选择进入多位点模型中的效应个数。4、Monte Carlo模拟研究表明:新方法KWeBP的6个模拟QTN平均检测功效在模拟试验1)中分别比KW、KWeB和EMMA高8.2%、10.9%和22.9%;在多基因背景下,分别高8.4%、13.3%和24.8%;在上位性背景下,分别高5%、13.3%和20.8%;对于logistic误差分布,分别高7.1%、11.3%和23.9%;在对数正态误差分布下,分别比 KWeB 和 EMMA高 12.9%和 22.8%,仅比 KW 低了 3.3%。参数估计值精度用均方误差来表示,均方误差越小表示参数数估计精度越高。新方法KWeBP的6个模拟QTN效应估计值的均方误差都小于0.1,KWeB比新方法略高,也基本小于0.1,EMMA方法的大都大于0.4。为了控制关联分析的高假阳性率,在单标记全基因组扫描中往往使用很小的显著性标准,例如EMMA使用的0.05除以标记个数。若假阳性率以0.1‰为单位,虽然KWeBP的显著性标准处在1e-4水平,但是所有模拟试验的假阳性率都小于2,EMMA的均小于5.0,KW的均大于45.0。这表明新方法在控制假阳性率方面是有效的。5、用KW、KWeB、KWeBP和EMMA四种方法重新分析了拟南芥10个开花时间的相关性状。结果表明:KWeBP方法检测到179个显著关联SNP,分别比KWeB和EMMA方法多了 59和141个,比KW方法少了 268个。若将这些显著关联的标记与相应的性状进行多元回归分析,则可计算相应模型的BIC(Bayesian information criterion)值。在这些BIC值中,新方法KWeBP的BIC值最低,表明其模型适合性最好。在这些显著关联SNP标记附近,新方法KWeBP发掘到拟南芥开花时间相关性状的已知基因57个,分别比KW、KWeB和EMMA方法多14、17和51个,这说明新方法的检测基因能力最强。此外,新方法还发现了一些其它方法未发现的新基因,例如,位于第一条染色体的ARF6和UFO基因,以及位于第三条染色体上的ARP5和FLK基因等。6、在R环境下,基于附加包RGtk2和gWidgetsRGtk2,并借助GTK+图形工具,将KWeBP新方法开发成相应的交互式界面R软件包。该软件包称为KWeBP包,可以在主流的Windows、Linux和Mac操作系统下运行,具有良好的平台适应性。同时,KWeBP包能够将分析结果可视化,具有强大的作图功能,可以绘制GWAS中常用的Manhattan图和QQ图。通过友好的图形用户界面(GUI)进行交互式操作,极大地方便了遗传育种工作者的使用。
其他文献
金针菜为百合科(Liliaceae)萱草属(Hemerocallis)植物,其幼嫩花蕾作为可食用组织,具有对乙烯不敏感的特性。尽管与干制金针菜产品相比,鲜食金针菜维持了组织更好的口感及叶绿素、抗坏血酸等营养成分的含量,但市场上鲜食金针菜的销售较少。这是因为金针菜的采收期正值高温季节,采后常温下组织极易开花衰老,从而影响金针菜的加工、销售半径和货架期,也严重制约着鲜食金针菜产业的可持续发展。因此,了
有机酸是梨内在品质的评价标准之一。我国的梨品种较为丰富,不同品种间有机酸积累的差异各不相同。多年来,国内外关于梨果实有机酸的研究大多集中在有机酸的组分和含量上,而与梨果实有机酸积累相关的基因的研究报道较少。本研究首先利用高效液相色谱法分析了我国5个栽培种中9个梨品种的有机酸含量的差异,明确了苹果酸和柠檬酸为梨果实的主要有机酸;然后,以‘砀山酥梨’为实验材料,克隆了PbrALMT9,PbrTDT1和
类受体激酶(receptor-like kinase,RLKs)是植物细胞中重要的信号分子,在植物的许多生长发育及生理胁迫过程中起着重要作用。按照胞外配体结合结构域的不同可将RLKs分成22个亚类,其中富亮氨酸重复序列类受体蛋白激酶(Leucine-rich repeat receptor-like kinase,LRR-RLKs)亚家族的 BAK1(BRI1-associated recepto
糖分的合成与积累是影响果实品质和商品价值的核心因素,也是遗传育种和基础理论研究者普遍关注的科学问题。由于果实糖的合成代谢途径复杂,涉及长距离、跨膜运输,并受多基因协同调控,导致对其作用机制研究难度较大。目前,研究更多的集中在果实糖的合成,对其转运调控的机制研究比较少。因此,本研究通过基因组、转录组、蛋白质组以及转基因等研究手段,重点开展了梨果实糖转运蛋白基因家族鉴定和功能分析,研究结果如下:1、在
蜡质芽孢杆菌AR156是一株植物根围促生细菌,可以诱导植物对病原物产生广谱抗病性,其中最主要的是诱导系统抗病性(induced systemic resistance,ISR)。ISR是由根围有益微生物介导的系统诱导抗病性,它对病原菌并没有直接的杀死或抑制作用,而是通过诱导植物的抗病反应来达到防治病害的目的。小分子RNA广泛参与调控植物的免疫反应,但它在AR156诱导的拟南芥对灰霉病菌(Botry
由布氏白粉菌(Blumeria grarn f.sp.tritici,Bgt)引起的白粉病是小麦的一种重要病害,其流行严重影响小麦产量。目前已鉴定出多个小麦抗白粉病基因,但由于病原菌与寄主协同进化,由这些基因提供的小种专化抗性容易因新的毒性小种出现而丧失。因此,发掘和利用新的抗白粉病资源是小麦抗病育种一项长期的任务。此外,对抗病基因进行遗传分析、标记定位和克隆有助于我们更好地进行抗病分子育种,加深
葡萄是世界上广泛种植的果树之一,生产上主要分为鲜食葡萄和酿酒葡萄。鲜食葡萄是我国主要的园艺经济作物之一,研究鲜食葡萄的休眠机理,可以为农民丰产增收提供科学依据。本论文主要运用转录组侧序技术对不同休眠阶段的葡萄花芽休眠进行了分子机制研究。首先,在葡萄芽三个不同的休眠阶段,共发现了 6096个差异化表达的转录本(log2 ratio ≥1,FDR≤0.001)涉及 127 条通路。KEGG(Kyoto
水稻是世界上最重要的粮食作物之一,为全球贡献了超过30%的能量摄入。由稻瘟菌(Magaporthe oryzae)引发的稻瘟病是水稻上最重要的三大病害之一,严重威胁稻谷的产量。目前,稻瘟病的防治主要于依赖栽培抗病品种和使用化学药剂。由于该病原菌容易发生变异,所以抗病品种极易丧失抗性。长时间使用单一的化学药剂则会使病原菌产生抗药性,导致药效丧失。因此,如何提高水稻对稻瘟病的持久抗性,是我们国家粮食安
在生物体内,褪黑素(melatonin,Mel)是哺乳动物松果体产生的一种吲哚胺类物质,参与调节各种生理功能,如抗炎作用、先天免疫、阿尔茨海默氏病等。血红素加氧酶(heme oxygenase,HY1/HO1)是血红素分解代谢的限速酶,催化血红素降解生成一氧化碳(carbon monoxide,CO)、亚铁离子(ferrous ion,Fe2+)和胆绿素(biliverdin,BV);HO1在动物
富营养化(Eutrophication)现象在全球范围内广泛发生,因其具有发展迅速、对人类健康和社会发展影响巨大等不良影响,而引起人们的普遍关注。目前中国的富营养化现状并不乐观,富营养化水体中动、植物特别是沉水植物的衰退和消亡现象十分普遍。沉水植物能够为水生生物提供食物和住所,并参与水体碳氮循环,在水生生态系统中起关键作用。因此沉水植被的恢复是一种有效修复富营养化水体的手段。本文研究了轮叶黑藻响应