论文部分内容阅读
植物大多数重要性状都是数量性状。通过定位有利基因和预测杂种表现来阐明其遗传基础和定向改良作物品种,达到提高育种效率,对新品种培育具有重要意义。植物数量性状的遗传解析常常针对F2、DH和BC等双亲本分离群体。但是,这些群体只有两个亲本。为了发掘优异等位基因,有必要开展多亲本育种群体的遗传分析研究,如杂交种育种中常用的NCII、NCIII和双列杂交等遗传交配设计(genetic mating design)。然而,这些群体的QTL定位方法研究较少,特别是上位性QTL定位。为方便应用工作者,本研究将本课题组提出的NCII群体上位性QTL定位方法研制成windows界面的软件包GAS_NCII。该软件包有经验Bayesian、EBLASSO和海量效应估计三个模块。其主要研究结果如下:1、经验Bayes模块是利用多个亲本及其杂种Fi基因型和数量性状表型数据作为数据源进行数量性状上位性QTL检测。基因型数据文件中,每行为个体individual,每列为SNP标记。当未给出F1基因型时,需要通过软件Data input下拉菜单中的Hybrid Fi design选项输入交配设计信息文件。该模块能处理主效QTL模型、上位性模型和主效+上位性+环境× QTL+环境×上位性模型三种选项,可通过界面树状下拉菜单进行选择;模型参数估计方法有 Empirical Bayes 和 Segregation analysis + Empirical Bayes 两种选项。在输入数据、选中模型和参数估计方法后,点击Run按钮运行程序。软件包对结果的输出预设为定位到的QTL信息,用户可以通过输入标记名Names文件将QTL编号替换为QTL关联标记名。结果文件包括QTL类型(Type)、标记名(Marker)、卡方值(Chi-value)、QTL 效应(Effect)、LOD 值(LOD)、概率 P 值(P-value)和 QTL贡献率(r^2)。利用该模块定位了油菜部分NCII遗传交配设计含油量的QTL,得到的8个主效QTL和37个上位性QTL与SAS软件包计算结果一致。2、EBLASSO模块与经验Bayesian模块的区别在于模型效应的参数估计方法。这里采用的是具有通过交叉验证试验的Empirical Bayes lasso方法。若不进行交叉验证试验,可选择对伽马先验分布压缩程度大的预设参数a=0.01和b=0.01;若实施交叉验证试验,由折数参数Fold number in Cross-Validation experiment来确定控制压缩程度的上述参数a和b。该模块的模型中可包括数十万个效应。利用该模块分析了棉花双列杂交群体马克隆值两年数据,定位了表型9个上位性QTL,这些结果与R软件包计算结果一致。3、海量效应估计模块是估计20万个以上至数百万个模型效应的模块,遗传模型为上位性模型,参数估计方法有经验Empirical Bayes和具有交叉验证试验功能的Empirical Bayes lasso两种。数据输入和结果输出与经验Bayesian模块一致。本研究实施了 440个体700个SNP的上位性模型的蒙特卡罗模拟研究,主效(加性和显性)和上位性效应(加性×加性、加性×显性、显性×加性和显性×显性)共有98万个待估效应,100次重复。结果表明:在遗传率10%的情况下,2个主效QTL的检测功效分别为100%和99%,4对上位性QTL的检测功效分别为97%、94%、96%和85%;假阳性率为0.0131‰,QTL效应估计值的绝对偏差在0.18以下,绝对偏差的标准差在0.27以下。由此表明,该方法在处理百万级上位性时是十分可靠的,建议用户用此模块分析100万待估效应的数据。