近交作物限制性二阶段全基因组关联分析方法及其应用和软件开发

来源 :南京农业大学 | 被引量 : 1次 | 上传用户:gerui1988
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
全基因组关联分析(genome-wide association studies,GWAS)方法最初被提出于人类遗传研究,它利用自然群体的连锁不平衡(linkagedisequilibrium,LD),通过全基因组标记与表型间的相关性测验来推断和解析复杂疾病的遗传基础,目前已成为动植物数量性状遗传基础解析的重要方法,在遗传育种研究中发挥了重要作用。但对于近交(inbreeding)作物,由于较高的自交率,近交作物自然群体通常具有广泛的LD程度,全基因组上的LD衰减距离通常远大于异交群体,从而导致GWAS中距离目标遗传位点较远的标记也可能被检测为显著关联,因此进一步将这种远距离显著关联的标记应用于遗传育种时,将可能导致选择失效甚至出现偏差。另外,近交作物常规育种需要利用目标性状全基因组遗传信息进行亲本和后代的分子标记辅助选择(marker-assisted selection,MAS),虽然 基于种质资源 群体的 GWAS 为育种性状遗传基础解析提供了方法,但是目前GWAS主要用于主效基因的发掘,为了尽可能避免假阳性以及提高试验的可重复性,通常采用非常严格的显著水平和群体结构控制方法,这就导致了所关联到的位点往往仅能解释总遗传变异的微小部分,而不能全面解析全基因组遗传位点信息,一定程度限制了其在常规育种中的应用。种质资源群体一般具有最广泛的遗传变异,而常规育种就是鉴别和聚合群体内优异遗传变异的遗传操作过程,因此鉴别遗传位点的优异等位基因是提高育种效率的前提。然而现有GWAS广泛使用的单核苷酸多态性(single nucleotide polymorphism,SNP)分子标记仅有两个等位变异,自然无法估计资源群体中大量存在的复等位基因效应,这进一步限制了其在常规育种中的应用。围绕上述GWAS在近交作物遗传育种研究应用中的问题,通过全基因组SNP单倍型区块(haplotypeblock)构建的SNPLDB(SNPLDblock)标记和多位点模型下的二阶段关联分析方法,本研究建立了适合于近交作物数量性状遗传基础解析的限制性二阶段GWAS方法,并通过基于大豆全基因组标记数据的模拟研究,评估和验证了新方法在近交作物GWAS中的可靠性。另外,通过大豆百粒重性状GWAS及优化组合设计的实例分析,进一步验证了本文方法在近交作物育种应用的有效性,并作为本文方法实际应用的一个例子。最后,基于本文建立的方法开发了适合于近交作物GWAS和优化组合设计的计算机软件。主要结果如下:(1)不同近交程度自然群体LD衰减与GWAS功效模拟分析:模拟比较了自交率(selfingrate)介于[0,1]的13种不同近交程度自然群体的LD情况,结果显示随着自交程度的增大,LD随着基因组距离增大的衰减幅度逐渐降低,完全异交时LD随着距离增加迅速衰减至0,而完全自交时LD随着距离增加几乎不衰减。估计的LD衰减距离显示完全异交的群体LD衰减至0.5时的物理距离约为100 kb,而0.99自交率的群体LD衰减距离约为2390kb,可见近交群体LD衰减距离远大于异交群体。通过LD程度与GWAS统计功效的模拟结果显示,显著水平设为0.05时,与5%遗传率位点LD为0.5的标记的GWAS统计功效高达100%,显著水平设为5x10-6时的统计功效仍有68%,这意味着在0.99自交率的群体中距离5%遗传率位点2390 kb远的标记在严格的显著水平下仍可能被检测为显著关联,从而导致GWAS具有较高的假阳性,此外,5x10-6显著水平下,与1%遗传率位点LD为0.5的标记的GWAS统计功效为1%,LD为1时的统计功效仅为8%,说明近交群体GWAS中大效应位点的假阳性远高于小效应位点,提高显著水平只能降低小效应位点的假阳性,但却大幅降低小效应位点的统计功效。(2)中国大豆种质资源群体LD及SNPLDB标记:基于包含1024份材料的中国大豆种质资源群体分布全基因组的145558个SNP分子标记,全基因组水平的LD分析结果显示,中国大豆种质资源群体具有广泛的LD程度,基于频率大于0.2的SNP估计的LD(以r2度量)平均衰减距离约为500 kb,由于基因组呈现区块特征,因此基于区块的分析显得更为合理。根据SNP单倍型区块,通过合并区块内的SNP标记,构建了分布全基因组的36952个SNPLDB标记,每个标记呈现2到14个变异类型。由于P指标受基因频率影响较大且SNPLDB标记的复等位变异频率较低,基于D’比较了 SNP和SNPLDB两种不同标记下群体LD的变化,结果显示基于SNP标记估计的平均LD衰减至0.6的距离约为3Mb,而对于SNPLDB标记的距离则缩短至500kb左右。由此可见,SNPLDB标记通过合并单倍型区块内的SNP位点不仅缩短了近交群体LD的衰减距离,而且提供了比SNP标记更丰富的适合育种应用的复等位变异信息,更适合应用于近交作物GWAS。(3)限制性二阶段全基因组关联分析方法:亲本系数(kinship)是度量自然群体偏离随机交配群体的标准指标,由于实践中通常缺乏系谱数据,目前GWAS中广泛使用的基于主成分分析(principalcomponentanalysis,PCA)的群体结构控制方法均利用全基因组标记计算的个体间相关矩阵,但相关矩阵方法仅针对SNP标记,无法应用于具有复等位变异的标记,本文则利用全基因组标记计算的个体间相似系数作为亲本系数的估计,并通过将相似系数矩阵的特征向量作为协变量引入GWAS线性模型以矫正近交导致的模型偏差。基于中国大豆种质资源群体全基因组SNP标记的模拟结果显示该方法有效降低了 GWAS的假阳性,采用10个特征向量时GWAS假阳性个数从未矫正时的52551.8降低到矫正后的2383.82,与相关矩阵方法1829.34的假阳性数相当,但是随着特征向量个数的增加相似系数方法假阳性数不断降低,且检测功效趋于稳定,如20、40、100个特征向量对应的假阳性数分别为395.18、142.11、48.64,检测功效分别为12.62、10.68、10.64,而相关矩阵方法随着特征向量个数的增加假阳性和检测功效均趋于稳定,其20、40、100个特征向量时对应的假阳性数分别是137.24、237.38、224.71,检测功效分别为14.71、9.76、10.26,因此相似系数方法不仅能够有效降低由近交导致GWAS假阳性,而且可以通过适当增加特征向量的个数不断降低GWAS假阳性,此外,该方法不受标记类型的限制,更适用于近交作物中高密度的SNPLDB 标记。结合近交作物SNPLDB标记以及利用相似系数的GWAS模型偏差矫正方法,本文建立了多位点模型下二阶段关联分析方法,并基于中国大豆种质资源群体全基因组SNPLDB标记的模拟数据对方法进行了验证。方法第一阶段基于单位点模型使用宽松的显著水平进行筛选候选位点以排除大量无用干扰信息,不同初筛显著水平的模拟结果显示0.05的显著水平达到了假阳性与检测功效的平衡,在82.9的检测功效下,检测7852.63个假阳性,相对于全部36952个标记,已经大幅降低了无用标记信息。方法第二阶段以控制遗传贡献总量为目的,基于多元逐步回归分析方法构建包含多个位点的最终遗传模型以控制总的表型变异解释率,两个阶段中均使用相似系数矩阵特征向量矫正由近交导致的模型偏差,模拟结果显示第二阶段的假阳性最低可降至9.49,功效最高为24.53,在假发现率基本相当的情况下,较现有方法7.24的检测功效高出10~17。综合以上发展的方法及模拟结果,我们总结归纳出适用于近交作物遗传育种应用、数量性状遗传基础解析的限制性二阶段GWAS方法,主要包括4个要点环节:(1)将全基因组SNP分子标记转换为SNPLDB标记以增加复等位变异并缩短群体LD衰减距离;(2)基于SNPLDB标记构建群体内个体间相似系数,并提取特征向量;(3)以相似系数矩阵特征向量为协变量,基于限制性二阶段关联分析方法进行GWAS;(4)以估计的性状遗传率作为总表型解释率的上限设置合理的显著水平,以控制失踪遗传率。(4)基于GWAS方法的大豆百粒重性状分子育种设计:使用本文建立的GWAS方法对中国大豆种质资源群体百粒重性状进行了遗传基础解析及育种优化组合设计,作为本文方法的一个工作示例。GWAS共检测到139个与百粒重显著关联的SNPLDB标记,总共解释了 98.17%的表型变异,单个位点表型变异解释率介于0.57%~2.75%。基于139个位点的标记基因型及其总共402个等位变异效应估计,构建了中国大豆种质资源群体百粒重性状QTL-allele信息矩阵,并进一步利用群体模拟方法对中国大豆种质资源群体所有可能的单交组合进行了预测,考虑位点间连锁时,由于优异基因与不利基因间的连锁,百粒重改良的潜力有限,而假定位点间独立遗传时,可以鉴定到1906个优异亲本组合,最后基于优异组合鉴别了 20个最优组合设计,较亲本群体最大百粒重提高了 23.32%~32.43%,进一步验证了本研究提出的GWAS方法在近交作物遗传育种中的有效性,为近交作物常规育种优化组合设计提供了范例和方法。(5)RTS-GWAS:近交作物常规育种应用的全基因组关联分析与优化组合设计的可视化计算机软件:计算机软件是大规模遗传数据分析基本条件,因此我们将本研究提出的GWAS方法及优化组合预测方法使用C++编程语言开发为高性能、可视化的计算机软件包。软件主要包括大规模GWAS数据分析、基于GWAS结果的应用于常规育种的优化组合设计、群体内个体间遗传关系估计和数据管理等功能。该软件具有简单易用的图形用户界面和命令行界面,可运行于Windows、Linux和OS X等主流操作系统平台,为近交作物GWAS以及其常规育种应用提供了可视化、高性能、跨平台的软件工具。
其他文献
提升教师的教学能力是提升教师综合素养的重要途径,也是高校工作的重点。本文从专业知识和专业能力两个方面对教师教学能力的内涵进行了阐释。并分析出高校教师发展中出现的
我国传统传媒制度的建立在很大程度上参照了前苏联的传媒制度形式,其核心主要是为了满足党和国家的政治需求,并确保传媒传播与弘扬思想文化的正确方向,因此,对传媒制度的绩效
工业机器人在焊接领域的应用得到迅速的发展,覆盖面越来越广。“示教-再现”模式在机器人焊接作业中最为常见。为确保这种工作模式能够被准确应用在以焊接作业为主的环境中,
为进一步提高电力变压器抗直流扰动性能,针对电力变压器偏磁失稳问题开展其判别与抑制策略研究。根据变压器基本电磁机理构建直流扰动状态方程,利用端口电气信息研究变压器励
实施有效的预习策略是实现新英语课程标准中提出要求的前提和基础。预习可让学生产生学习英语的兴趣和动力;预习环节的实施可以培养、发展学生自主学习的能力和良好的学习习惯
二维层状材料不仅具有独特的光学、电学、热学性质,还具有良好的力学性能:既可以单独用作润滑剂,也可以作为润滑剂添加剂显著改善其摩擦学性能,还能够展现出超滑等新颖摩擦现
光催化剂因其独特的性能在光产氢与光降解方面的占有重要地位,而这其中,TiO2是近几十年来的研究热点。然而TiO2的光响应范围较窄,只能吸收可见光,并且量子效率低,光激发后产
赤点石斑鱼(Epinephelus akaara)是名贵海水经济鱼类,雌雄同体,雌性先熟,存在天然性逆转现象。雌鱼一般在6龄性逆转为雄鱼,因而雌雄亲鱼性成熟不同步,导致受精率较低,制约着石斑鱼
目的:抗肿瘤治疗引起的心血管系统并发症已经成为影响乳腺癌患者生存和预后的重要因素。既往研究表明当乳腺癌患者化疗后出现临床症状和左室射血分数(LVEF)明显降低时,患者的心脏功能往往已受到不可逆性损伤。本研究采用三维斑点追踪成像技术(3D-STI)监测乳腺癌化疗患者在整个随访期间左心室功能的动态变化趋势,探讨三维应变多参数变化的临床意义。方法:选择在我院自2017年4月至2018年12月接受化疗的女
随着数字传播时代的到来,新闻媒体在技术浪潮的裹挟下经历着一场巨大变革,其中新闻生产受到的影响就是一个值得关注的话题。本文以布尔迪厄场域理论为视角,探讨媒介融合背景