论文部分内容阅读
随着人类全基因组计划的完成及高通量基因分型技术的快速发展,全基因组关联分析(GWAS)已经成为挖掘人类疾病易感基因及与家畜动物重要经济性状相关QTL的有力工具。大量以单核苷酸多态性片段(SNP)为主遗传标记已经被发现与人类疾病和家畜重要经济性状显著相关。然而,随着研究的深入,人们逐渐发现GWAS检测到的显著性SNP位点只能解释小部分与表型相关的变异,大量的剩余遗传信息还没有被挖掘。此外,大多数复杂的数量遗传性状往往由微效多基因决定的,单个SNP无法解释所有的表型变异。因此,需要提出新的统计策略来解决这种缺陷。在已有的众多策略中,基于通路的全基因组关联分析方法评估处于同一生物学通路中多个SNP的共同作用,而不仅仅单独的分析单个SNP的效应而广泛受到人们的关注。一些基于通路的关联分析算法也相继被提出,然而传统的基于通路的全基因组分析方法仅仅简单的使用显著的SNP构建基因统计量,忽视了小效应SNP的作用,这种策略有很大的局限性。为了解决传统的基于通路分析的算法缺陷,本研究提出了一种新的算法。这种算法包括两个步骤:1)使用主成分分析的思想构建每个基因的主成分矩阵,然后根据主成分与表型的关联程度对其进行排序。2)使用最大均值法(Maxmean)构建每个基因的统计量,然后使用柯尔莫哥罗夫-斯米尔诺夫(Kolmogorov-Smirnov)检验通路的显著性。基于来自内蒙古乌拉盖地区807头西门塔尔牛所包含的77,000,000 SNPs的数据,本研究使用新的算法对宰前活重、眼肌面积两个重要的经济性状进行了分析。结果表明,在对来自于KEGG数据库的263条通路的分析研究中,伽马氨基丁酸通路(p=0.000876)和非酒精性脂肪性肝病疾病(NAFLD)通路(p=0.000058)分别与宰前活重和眼肌面积两个性状显著相关。对两条显著性通路的生物信息学分析发现,伽马氨基丁酸通路已经被证实与动物的采食量及体重增加过程相关。本研究提出的基于通路的新算法首次剔除基因内部SNP之间的连锁作用,丰富了现有基于通路的全基因关联分析的算法。更重要的是,本项研究是首次对肉牛进行了基于通路的全基因组关联分析,共发现两条与肉牛重要经济性状相关的显著性通路。研究结果可能为后续实施分子育种提供重要的前提和基础。