SKAT与惩罚回归模型联合分析策略在遗传关联研究中的应用

来源 :广东药学院 | 被引量 : 3次 | 上传用户:JK0803_sunmingfang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
背景全基因组关联研究(Genome-Wide Association Studies,GWAS)成功鉴定出许多与人类各种疾病关联的常见遗传变异,但能解释的疾病遗传风险比例仍然很低。稀有变异由于在人类进化过程中通常新近发生,尚未经受选择压力,更倾向于包含功能性致病位点。随着近年来二代测序技术的快速发展,涌现出大量含稀有变异的遗传关联研究数据;然而稀有变异在人群中频率很低,导致常规统计方法效能低下,给统计分析方法的发展带来新的挑战。早期的基因组关联分析中,单遗传变异关联性检验受限于多重校正后的显著性水平,要求较为苛刻,效能极低。考虑到大部分疾病相关基因里存在多个有潜在功能的遗传变异,特别是稀有变异,将基因内变异聚集以增加其效应的负担检验是处理稀有变异较为常用的一种分析策略。另一方面,以SKAT(sequence Kernel association test)为代表的基于个体间遗传变异相似性的方差分量检验成功地解决了遗传变异间存在的连锁不平衡及基因内变异效应方向不同等问题。但SKAT仅针对单个基因或者感兴趣区域(Region of Interest,ROI)内遗传变异进行分析,忽略了其他基因或基因外围所包括的信息。基因组遗传关联数据呈现高维状态,噪音大,共线性严重,在传统最小二乘与似然估计基础上引入惩罚函数是解决此类问题的有效工具之一。1996年Tibshirani提出基于惩罚思想的LASSO(least absolute shrinkage and selection operator)。Zou等在2005年提出将岭估计和LASSO凸结合,称为“弹性网(Elastic Net)”。2009年和2012年Breheny等和Huang等进一步提出两水平惩罚模型cMCP(composite Minimax Concave Penalty)和Gel(The group exponential lasso),在基因和遗传变异两个水平上进行变量选择,但其理论和应用仍需进一步研究。由于基于基因或roi的skat法只在组水平上进行统计推断,而无法估计单个变异的效应,而常规惩罚模型(lasso和en)虽可估计变异效应,但不做统计推断,因此本研究提出两阶段联合分析策略,将skat与lasso和en联合应用,优势互补,并与成组惩罚模型进行比较,评价各类方法及策略的性能,为遗传关联研究提供方法学选择的依据和指导。方法本研究统计方法选用skat,lasso,en三种方法、两阶段联合应用策略(skat+en,skat+lasso,en+skat,lasso+skat)及两水平惩罚模型(cmcp,gel),比较它们在基因组关联分析、候选基因关联分析研究中的应用性能,并将研究方法应用于lncrnah19,hotair,malat1和meg3与肝癌的病例对照遗传关联研究实例,以说明各类方法的实际应用。在基因组关联分析中,模拟数据源自遗传分析工作组18(geneticanalysisworkshop18,gaw18),共包括849个个体,以50次模拟舒张压作为结局变量,选取第3号染色体的遗传变异数据(含1141个基因的532092个snps)作为自变量;评价指标主要有灵敏、和特异度、约登指数、选出率、相关关系的p值与相关系数在候选基因关联分析中,仍采用gaw18数据,以849个个体的200次模拟舒张压作为结局变量,以模拟数据集中与舒张压实际关联的35个基因119个snps作为自变量,评价各类方法的效能;以与这些基因完全无关联的联系性状q1做为结局变量,评价各类方法的i类错误。评价指标在基因组关联分析指标的基础上增加了绝对误差与相对误差。实证研究中,采用本课题组在广东顺德地区人群中研究lncrnah19,hotair,malat1和meg3与肝癌关联的病例对照数据,共包含604病例和614对照的4个基因共15个snps的信息。结果1.基因组关联研究结果显示,在基因水平上评价,skat的平均灵敏度最高,为0.595;skat+lasso的特异度最高,平均值为0.906。skat的约登指数最高,为0.112,其次是skat+en,为0.086。在snp水平上,en灵敏度最高,skat+lasso特异度最高,en+skat的约登指数最高,为0.016。对舒张压效应贡献最大的实际关联基因MAP4在各种统计分析策略的选出率均为最高,值与基因内的SNPs数和对DBP的解释方差比例存在一定的统计学关联。选出次数最多的SNP为48040283与47957996,位点均属于MAP4,效应真值分别为-6.22与-4.64,效应强度排名分别为第1与第5。2.候选基因关联分析中,在基因水平上,EN的效能最高,为0.638;其次为LASSO,为0.616;SKAT及其联合策略的I类错误最低。在SNP水平上EN效能最高,其次为LASSO。SKAT+EN与SKAT+LASSO的I类错误最低。此外,无论是基因水平还是SNP水平,EN+SKAT的效能虽然略低于EN法与LASSO法,但是在一类错误上远低于二者。MAP4是各模型选出率最高的基因,选出率与基因包含SNPs个数、解释方差比例存在一定的统计学关联。效应真值位列前3的SNPs在各模型中的选出率均属前列,选出率与MAF值、效应真值普遍不存在统计学关联,但与解释的方差比例存在关联。不同统计策略的绝对误差与相对误差和MAF值与方差解释比例之间并无相关关系,而绝对误差与系数真值均存在相关关系3.lncRNA与肝癌病例对照遗传关联研究结果显示,传统的logistic回归仅在单因素分析时挖掘到rs151191249可能与肝癌存在关联,SKAT没有得到有统计关联的基因,而EN和LASSO分别筛选出11和10个与肝癌关联的SNPs,其中包含rs151191249。结论1.在样本量不足900人的基因组关联研究中,EN+SKAT结合的两阶段统计分析策略能够从数百万SNP中把与疾病关联度较高的基因和SNP筛选出来,该策略灵敏度较高,同时假阳性错误的概率较低,为复杂性状基因组关联研究提供了一种有效的统计分析策略。2.在候选基因关联研究中,EN是本研究中效能最高的方法,无论在模拟研究还是实际应用,它能比logistic回归分析挖掘出更多的真关联基因和SNPs。此外,EN+SKAT结合的两阶段分析策略虽然在效能上略低于EN,但是能够明显的降低一类错误的概率,值得在候选基因研究里使用。
其他文献
在电视媒体播出的众多电视节目中,电视新闻节目占据了主导地位,可以说各种类型的电视新闻节目是电视媒体“安身立命”之本.对于广大电视观众而言,在收看电视新闻节目时,除了
由正午阳光出品的电视剧《清平乐》,改编自米兰lady的小说《孤城闭》,剧中以北宋为时代背景,围绕着风起云涌的朝堂政事以及后宫的儿女情长,讲述了一个复杂而真实的宋仁宗.《
每逢节假日,人们都会聚集在电视机旁,观看电视上播出的各种类型的晚会.这些晚会很大程度上丰富了人们的精神生活,满足了人们提高生活品位的需求.但是好的电视晚会,则离不开导
随着越来越多的立足于中国传统文化服装品牌引领的潮流和他们所取得的成功,更多服装品牌开始意识到了审美与风格在服装中的重要性与当代价值“,中国风”开始悄然被运用在众多
新疆生产建设兵团的使命是屯垦戍边,在新疆经济、文化的发展进程中,发挥着重要的作用.经过60年的历史变迁,兵团城市在高速发展,老城区的改建,影响着逐渐消失的早期的军垦遗迹
中国古代谏诤制度是封建社会巩固政权的产物.明代言官谏诤在职权职能、选任、官员考核等方面较历代相比更为完善,本文从明代言官谏诤出发,探析其谏诤特点并研究其背后成因,分
课堂教学是学校教育的主要方式,注重培养学生创新意识和实践能力为重要目标,良好的课堂不应追求讲授技巧的滴水不漏和教学环节精雕细刻很完美,而应在先进的教育理念指导下,学习课