论文部分内容阅读
因多重假设检验导致的大量假阳性关联结果是基因组关联研究(Genome-wideassociation study, GWAS)面临的重要问题,至今仍然没有很好的解决。期望条件最大化(Expectation Conditional Maximum, ECM)算法能估计每个SNP标记与QTL存在连锁不平衡(Linkage Disequilibrium, LD)的概率,可以进行QTL定位分析。然而,无论是GWAS还是ECM,得到的结果往往只是统计学意义上与性状存在显著性关联的SNP标记位点,但是怎样由这些关联显著性的标记位点去推断QTL的大致范围也十分重要。本研究提出一种组合策略,利用全基因组的SNP标记,结合关联分析方法和ECM算法,通过选择标记,对同一分析群体进行再估计,分两步进行QTL定位。根据两种方法使用顺序的不同,分为两种方法(Combined I和Combined II)。此外,本研究还探讨了分别使用固定区间(1cM)判断和两种LD分析法(LD I和LD II)对组合策略得到的结果进行分析,从而推断QTL的大致范围并给出了一定的标记判定区间。研究结果表明:(1)无论是采用Bonferroni方法还是FDR(False Positive Rate)方法校正假设检验的P值,GWAS都产生了大量的假阳性关联结果。QTL定位的假阳性率分别高达0.74和0.77。组合策略能显著降低QTL定位的假阳性率,分别为0.22(Combined I)和0.13(Combined II)。两种组合方法都能成功定位15个主效QTL(QTL遗传方差占总的遗传方差大于1%,并且在多元回归分析中能被检测到)中的13个,Combined I方法还能定位到额外的一些次级QTL。组合策略通过选择过程,减弱了SNP标记之间的相互影响,然后结合ECM算法估计结果的准确性,在保证QTL定位成功率的前提下,有效地控制了假阳性结果的产生,提高了QTL定位分析的准确性。(2)QTL定位的效果受到群体规模和目标性状遗传力大小的影响。群体规模越大,QTL定位的成功率和准确性就越高。因此,要想保证QTL定位的效果,必须保证足够的个体数;而且要注意群体的构成,尽量选择无亲缘关系的个体。性状的遗传力越高,可稳定的遗传效应就越大,QTL定位的准确性越高,然而,QTL能否被成功定位很可能是受到QTL本身效应大小的影响。(3)使用LD分析方法分析对得到的显著性关联结果进一步分析,可以准确推断主效QTL的大致范围,并给出了一定的判定区间。LD I方法能准确地定位13个主效QTL,LD II方法则能成功定位全部(15个)主效QTL;但是LD I方法产生的判定区间要明显小于LD II方法,尤其是对于与QTL位置很近的显著性关联SNP。LD分析方法比使用固定区间判断减少了错误率,进一步提高了QTL定位分析的准确性。总之,本研究探讨的组合策略和LD分析法可以提高QTL定位分析的准确性,对下一步的基因鉴别工作提供有价值的参考。