论文部分内容阅读
背景全基因组关联研究(Genome-Wide Association Studies,GWAS)成功鉴定出许多与人类各种疾病关联的常见遗传变异,但能解释的疾病遗传风险比例仍然很低。稀有变异由于在人类进化过程中通常新近发生,尚未经受选择压力,更倾向于包含功能性致病位点。随着近年来二代测序技术的快速发展,涌现出大量含稀有变异的遗传关联研究数据;然而稀有变异在人群中频率很低,导致常规统计方法效能低下,给统计分析方法的发展带来新的挑战。早期的基因组关联分析中,单遗传变异关联性检验受限于多重校正后的显著性水平,要求较为苛刻,效能极低。考虑到大部分疾病相关基因里存在多个有潜在功能的遗传变异,特别是稀有变异,将基因内变异聚集以增加其效应的负担检验是处理稀有变异较为常用的一种分析策略。另一方面,以SKAT(sequence Kernel association test)为代表的基于个体间遗传变异相似性的方差分量检验成功地解决了遗传变异间存在的连锁不平衡及基因内变异效应方向不同等问题。但SKAT仅针对单个基因或者感兴趣区域(Region of Interest,ROI)内遗传变异进行分析,忽略了其他基因或基因外围所包括的信息。基因组遗传关联数据呈现高维状态,噪音大,共线性严重,在传统最小二乘与似然估计基础上引入惩罚函数是解决此类问题的有效工具之一。1996年Tibshirani提出基于惩罚思想的LASSO(least absolute shrinkage and selection operator)。Zou等在2005年提出将岭估计和LASSO凸结合,称为“弹性网(Elastic Net)”。2009年和2012年Breheny等和Huang等进一步提出两水平惩罚模型cMCP(composite Minimax Concave Penalty)和Gel(The group exponential lasso),在基因和遗传变异两个水平上进行变量选择,但其理论和应用仍需进一步研究。由于基于基因或roi的skat法只在组水平上进行统计推断,而无法估计单个变异的效应,而常规惩罚模型(lasso和en)虽可估计变异效应,但不做统计推断,因此本研究提出两阶段联合分析策略,将skat与lasso和en联合应用,优势互补,并与成组惩罚模型进行比较,评价各类方法及策略的性能,为遗传关联研究提供方法学选择的依据和指导。方法本研究统计方法选用skat,lasso,en三种方法、两阶段联合应用策略(skat+en,skat+lasso,en+skat,lasso+skat)及两水平惩罚模型(cmcp,gel),比较它们在基因组关联分析、候选基因关联分析研究中的应用性能,并将研究方法应用于lncrnah19,hotair,malat1和meg3与肝癌的病例对照遗传关联研究实例,以说明各类方法的实际应用。在基因组关联分析中,模拟数据源自遗传分析工作组18(geneticanalysisworkshop18,gaw18),共包括849个个体,以50次模拟舒张压作为结局变量,选取第3号染色体的遗传变异数据(含1141个基因的532092个snps)作为自变量;评价指标主要有灵敏、和特异度、约登指数、选出率、相关关系的p值与相关系数在候选基因关联分析中,仍采用gaw18数据,以849个个体的200次模拟舒张压作为结局变量,以模拟数据集中与舒张压实际关联的35个基因119个snps作为自变量,评价各类方法的效能;以与这些基因完全无关联的联系性状q1做为结局变量,评价各类方法的i类错误。评价指标在基因组关联分析指标的基础上增加了绝对误差与相对误差。实证研究中,采用本课题组在广东顺德地区人群中研究lncrnah19,hotair,malat1和meg3与肝癌关联的病例对照数据,共包含604病例和614对照的4个基因共15个snps的信息。结果1.基因组关联研究结果显示,在基因水平上评价,skat的平均灵敏度最高,为0.595;skat+lasso的特异度最高,平均值为0.906。skat的约登指数最高,为0.112,其次是skat+en,为0.086。在snp水平上,en灵敏度最高,skat+lasso特异度最高,en+skat的约登指数最高,为0.016。对舒张压效应贡献最大的实际关联基因MAP4在各种统计分析策略的选出率均为最高,值与基因内的SNPs数和对DBP的解释方差比例存在一定的统计学关联。选出次数最多的SNP为48040283与47957996,位点均属于MAP4,效应真值分别为-6.22与-4.64,效应强度排名分别为第1与第5。2.候选基因关联分析中,在基因水平上,EN的效能最高,为0.638;其次为LASSO,为0.616;SKAT及其联合策略的I类错误最低。在SNP水平上EN效能最高,其次为LASSO。SKAT+EN与SKAT+LASSO的I类错误最低。此外,无论是基因水平还是SNP水平,EN+SKAT的效能虽然略低于EN法与LASSO法,但是在一类错误上远低于二者。MAP4是各模型选出率最高的基因,选出率与基因包含SNPs个数、解释方差比例存在一定的统计学关联。效应真值位列前3的SNPs在各模型中的选出率均属前列,选出率与MAF值、效应真值普遍不存在统计学关联,但与解释的方差比例存在关联。不同统计策略的绝对误差与相对误差和MAF值与方差解释比例之间并无相关关系,而绝对误差与系数真值均存在相关关系3.lncRNA与肝癌病例对照遗传关联研究结果显示,传统的logistic回归仅在单因素分析时挖掘到rs151191249可能与肝癌存在关联,SKAT没有得到有统计关联的基因,而EN和LASSO分别筛选出11和10个与肝癌关联的SNPs,其中包含rs151191249。结论1.在样本量不足900人的基因组关联研究中,EN+SKAT结合的两阶段统计分析策略能够从数百万SNP中把与疾病关联度较高的基因和SNP筛选出来,该策略灵敏度较高,同时假阳性错误的概率较低,为复杂性状基因组关联研究提供了一种有效的统计分析策略。2.在候选基因关联研究中,EN是本研究中效能最高的方法,无论在模拟研究还是实际应用,它能比logistic回归分析挖掘出更多的真关联基因和SNPs。此外,EN+SKAT结合的两阶段分析策略虽然在效能上略低于EN,但是能够明显的降低一类错误的概率,值得在候选基因研究里使用。