泛基因组工具变量孟德尔随机化方法及其应用研究--以食管鳞癌mGWAS为例

来源 :山东大学 | 被引量 : 0次 | 上传用户:candy129
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
研究背景
  病因推断是流行病学研究的永恒主题,然而,由于受到混杂因素和逆向因果作用的干扰,在常规观察性研究中得到的暴露和结局的关联往往并不可靠。针对因果方向的确定及混杂因素的控制,孟德尔随机化方法(Mendelian Randomization,MR)使用遗传变异作为工具变量(instrumental variable,IV),在推定暴露到结局因果方向的前提下,准确估计从暴露到结局的因果关联效应,成为基因组学时代进行因果关联分析的重要方法。目前,随着高通量组学技术的普及,基于大型队列的全基因组关联研究(Genome-Wide Association Studies,GWAS)为MR提供了丰富的数据信息。随着MR方法应用领域的不断扩展,其理论方法研究也在不断深入。不同的MR方法在选择工具变量,水平多效性效应建模假设以及进行参数估计和统计推断的方式等方面有所不同。但是,在工具变量SNP选择策略上,现有MR方法都依赖于选择一小部分效应强度较强的SNP作为工具变量,而且考虑到SNP之间复杂的连锁不平衡(linkage disequilibrium,LD)关系,往往需要选取独立的SNP作为工具变量。然而,此种选择策略将会不可避免的导致估计偏倚问题和统计效能的降低。为了克服上述SNP选择策略带来的缺陷,一个很自然的想法便是全基因组SNPs不加选择的全部纳入工具变量集G;这便是新近发展的基于泛基因组(omnigenic)的工具变量思想(即,假设基因组的全部遗传变异都对表型性状产生贡献)。然而,将如此海量的全基因组SNPs(几百万到几千万)一并纳入两样本孟德尔随机化模型后,如何实现模型参数的高效、准确、无偏估计是必须解决的关键科学问题,也是本研究的核心研究内容。为此,本论文在方法学研究部分中首先提出泛基因组遗传假设,即由全基因组SNPs综合而成的基因工具变量G表征了遗传因子G对暴露X的全部效应,同时遗传因子G也允许直接对结局Y产生效应(即允许水平多效性存在);同时,允许两样本(Two Sample)孟德尔随机化中的两样本间可以存在样本重复。基于遗传学中的复杂性状泛基因组学遗传模式,遵循上述泛基因组假设而构建的两样本孟德尔随机化模型,本研究称之为泛基因组孟德尔随机化(Omnigenic Mendelian randomization,OMR)模型。
  在当今生物组学时代,本研究所构建的OMR模型在各种跨组学分析中,具有广泛的应用前景。在理论意义上,利用MR可以确定因果方向的独特优势,将跨组学MR分析结果融合,便可构建DNA→RNA→蛋白质→代谢物→疾病表型的因果网络,从而打开暴露→疾病结局的“黑盒子”,为系统流行病学病因网络构建、药物靶点设计、预防或诊疗措施制定及评估提供支撑。作为实际应用案例,本论文依托国家食管癌早诊早治项目,在山东省食管癌高发区建立了食管癌早诊早治筛查队列。采用本研究构建的OMR模型,分析血清代谢物对食管鳞癌(esophageal squamous cell carcinoma,ESCC)的因果效应。通过整合基因组和代谢组数据,探索血清代谢物→食管鳞癌的因果关联。
  基于泛基因组工具变量的孟德尔随机化方法研究(OMR)
  研究方法
  针对两独立样本的情形,本研究首先在遗传效应服从正态分布的假设下,采用复合似然估计策略,同时估计工具变量G对暴露X以及工具变量G对结局Y的效应;此外,为了能够包含基因组上广泛存在的LD信息,在构建复合似然函数时,采用了LD信息作为边际似然函数的权重,对复合似然函数进行加权。针对两重叠样本及单样本的情形,在上述模型中引入样本的协方差项,从而有效的避免了样本重复相关对参数估计的影响。进而,开发EM-NR联合算法,将期望最大化(Expectation-Maximization,EM)算法与牛顿-拉夫森(Newton-Raphson,NR)算法有机结合的以实现模型参数的高效、无偏估计。然后,采用刀切法(Jackkniferesampling)通过重抽样策略进行模型参数的假设检验。为了全面评估泛基因组孟德尔随机化模型(OMR模型)的有效性、准确性和稳健性,本研究设计了系统的统计模拟实验。基于人群中SNP基因型的真实分布及其LD模式,产生符合客观实际的模拟数据集;设定并遍历不同大小的遗传度、水平多效性、暴露X对结局Y的因果效应;同时,考虑不同遗传效应模式(包括基因组全部SNP具有遗传效应、基因组中1%的SNP有遗传效应、以及基因组中10%的SNP有遗传效应等多种情形);在上述各种条件组合下,通过统计模拟实验评价OMR模型的参数估计偏倚(覆盖率)、一类错误的稳定性、统计检验效能。此外,为了比较本研究所提出的OMR模型与目前最新MR分析模型的优劣性,在上述一系列模拟实验中,同时考察了IVW、Egger回归、MRMix、BWMR和CAUSE共五种方法。最后,为了评价上述模型对实际数据因果关联分析的效果,采用了两类实际数据集。第一类数据集设定为理论上因果关联必定存在的假想情形,包括分类变量“心血管疾病(cardiovascular disease,CAD)-CAD”和连续变量“身高-身高”两种情形。第二类数据集设定理论上因果关系可能存在的实际情形,包括20种数量性状→CAD和20种数量性状→哮喘两种情形。
  研究结果
  (1)理论证明结果:针对两独立样本、两重叠样本及单样本情形,分别构建基于汇总统计量的OMR模型,进一步开发EM-NR联合算法,其中,通过EM算法获得参数初始估计值;为了加快参数估计的收敛速度,将EM算法的初估值作为NR算法的初始值,进行快速迭代;从而,达到模型参数估计的高效性和准确性。
  (2)统计模拟结果表明:1)在两独立样本情形下:①一类错误控制率:原假设成立时,在不存在水平多效性效应的模拟方案下,OMR模型可以给出合理或者轻度膨胀的一类错误控制率;当存在水平多效性效应时,OMR方法是唯一不受SNP遗传度以及遗传模式的影响,产生合理的一类错误控制率的方法。②检验效能:除极端稀疏遗传模式(即只有10个SNP影响暴露的情况,效应SNP所占比例≈1/30000)以外,OMR模型在所有模拟方案中均能表现出最高的检验效能。③估计准确度:OMR模型在所有模拟方案中均可以对因果效应进行准确估计并产生合理准确的覆盖率。2)两重叠样本及单样本情形下:①一类错误控制率:在存在水平多效性的模拟方案下,OMR模型在两重叠样本和单样本情况下均可提供合理的Ⅰ类错误控制率。②检验效能:OMR方法在两重叠样本及单样本情形均具有最高的检验效能。③估计准确度:OMR模型在两重叠样本和单样本情形下都能对因果效应进行准确估计。
  (3)实例分析结果表明:1)CAD→CAD和身高→身高分析:结果显示,在比较的6种MR方法中,OMR模型是唯一能够在两种情形中均检测到具有统计学意义的因果关联,同时95%置信区间包含真实值1的方法。2)20种数量性状→CAD和20种数量性状→哮喘分析:在两种情形下,对于具有统计学意义的数量性状,利用OMR方法进行检验的阳性结果最多,且其阳性结果通常能够得到其他至少一种MR方法的验证,同时大部分阳性结果进一步得到了临床试验或文献证据支持。
  应用研究:以血清代谢物对食管鳞癌的因果关联分析为例
  研究方法:
  依托国家食管癌早诊早治项目,分别构建食管鳞癌高发区人群mGWAS研究(纳入人数880人,数据子集1包含546人,数据子集2包含334人)和食管鳞癌病例对照研究(纳入人数1046人,其中对照969人,ESCC病例77人)。
  (1)在食管鳞癌高发区人群mGWAS研究中,使用InfiniumOmni2.5Exome-8v1-3(Illumina)芯片对受试者全血样本进行基因分型检测。血清样本使用UHPLC-QTOF/MS进行非靶向代谢组学分析。对所有代谢物性状使用协变量(年龄、性别、内窥镜检查结果和前10个主成分)进行调整及标准化后,采用两阶段分析策略,分别在数据子集1和数据子集2中,使用线性回归模型分析全基因组约420万个SNPs与185种代谢物性状的关联性,使用meta分析整合两组分析结果。
  (2)在食管鳞癌病例对照研究中,首先将食管鳞癌结局使用协变量(年龄、性别和前10个主成分)进行调整及标准化后,使用线性回归模型分析全基因组约420万个SNP位点与食管鳞癌发生风险的关联性。
  (3)以185种血清代谢物mGWAS的汇总统计量作为暴露,食管鳞癌GWAS汇总统计量作为结局,使用全基因组4,085,890个SNP位点作为工具变量,采用OMR模型逐个检验血清代谢物对食管鳞癌发生风险的因果关联。
  研究结果:
  (1)食管鳞癌高发区人群人群mGWAS分析结果:经过统计检验,共有4327个SNP-代谢物关联强度小于全基因组和代谢组范围的显著性检验水平(Z检验,P<5×10-8/185=2.70×10-10),其中包括19个独立的SNP代谢物关联,涉及10个独立的SNP位点和17种不同的血清代谢物。19个关联中,7个成功重复验证了先前报道过的具有统计学意义的关联,另外12个在之前的研究中尚未被报道过。
  (2)食管鳞癌GWAS分析结果:经过统计检验,共有1个SNP位点达到全基因组显著性检验水平(5×10-8),42个SNP位点达到建议显著性检验水平(1×10-5),取独立后,共计10个SNP位点被确定为topSNP位点。其中6个位点被报道与食管鳞癌相关,另外4个尚未被报道过与食管鳞癌的相关性,但已有文献探讨其与其他肿瘤或者食管鳞癌危险因素(如吸烟,饮酒等行为方式)的关联性,其与食管鳞癌的关联性有待进一步探索。
  (3)OMR分析结果:共有11个血清代谢物性状对食管鳞癌的因果关联检验P值小于一般检验水准(0.05),其中9个小于Bonferrioni校正的检验水准(0.05/185=2.7×10-4)。肉豆蔻酸、吲哚-3-丙酮酸、次黄嘌呤、CDCA和PC18∶1是食管鳞癌的危险因素。L-组氨酸、肌酐、PG24∶1、PC41∶6、PC38∶4和PG23∶2是食管鳞癌的保护因素。肉豆蔻酸、CDCA和PC38∶4为mGWAS研究中发现的遗传调控代谢物,进而,构建潜在的基因组→血清代谢物→ESCC致病机制通路。
  结论:
  (1)分别在两独立样本、两重叠样本及单样本情形下,构建了基于泛基因组工具变量的孟德尔随机化分析方法(OMR方法),基于复合似然框架和EM-NR联合推导算法实现高效计算,统计模拟结果表明,OMR模型可以得出准确的因果效应估计值、合理校准的Ⅰ类错误控制率以及比现有MR方法更高的统计检验效能,并将上述算法编写为R包,方便研究者使用。
  (2)实例数据验证表明,在理论真实因果效应为1的情形下,OMR模型不仅能够检测到具有统计学意义的关联,同时估计的置信区间包含真实值1;在真实因果效应未知的情形下,OMR模型发现的具有统计学意义的数量性状最多,同时大部分关联结果得到了临床试验或文献证据支持。
  (3)为了验证OMR方法的实用性,首先通过食管鳞癌高发区人群mGWAS分析,获得血清代谢物全基因组关联分析汇总统计量,然后通过食管鳞癌病例对照人群GWAS分析,获得食管鳞癌全基因组关联分析汇总统计量,最后采用OMR模型探索血清代谢物与ESCC风险的因果关联,发现11个血清代谢物性状的因果关联显著性P值具有统计学意义(P<0.05),其中9种血清代谢物的关联强度经过Bonferrioni校正后仍然具有统计学意义。
其他文献
研究背景  胆石症是胆汁中胆固醇或胆色素等成分在胆囊或胆管中凝结析出结石的疾病。大多数胆石症患者是无症状的,但仍有部分患者因急慢性炎症而表现为胆道绞痛等症状,并可引起多种并发症,如急性胰腺炎、胆道穿孔、肝损伤、胆道系统恶性肿瘤等。除了增加医疗费用之外,还会危及患者的生命。由于环境和饮食习惯的差异,我国各个地区报告的胆石症患病率在2.4%-22.9%之间。  根据结石的所在部位,可将胆石症分为胆囊结
学位
研究背景代谢综合征(Metabolic Syndrome,MS)是指一组以超重、高血压、高甘油三酯、高密度脂蛋白胆固醇低下及胰岛素抵抗或葡萄糖耐量异常为主要表现的代谢紊乱症候群。2005年,全球范围内MS患病率约为25%,提示MS已成为国际重要公共卫生问题。根据2010年慢性病监测数据分析结果,我国的MS患病率高达30%,根据2019年一项基于多中心横断面调查研究的结果,中国≥20岁多民族人群MS
研究目的据世界卫生组织公布的2020年全球最新癌症负担数据统计,乳腺癌新发病例数快速增长,成为全球第一大癌症。放射治疗(Radiotherapy,RT)是临床上应用广泛且高效的癌症治疗手段,其主要机制是通过损伤DNA的方式引起肿瘤细胞直接死亡[1]。然而近年来,辐射诱导的“远端效应”引起临床医师和肿瘤学家的关注。远端效应是指对原发肿瘤部位进行局部放射治疗后,非受照区的肿瘤产生肿瘤自发消退,其机制被
学位
研究背景:直肠癌是最常见的恶性消化道肿瘤之一。由于缺乏早期筛查意识,大多数患者确诊时已处于局部进展期或发生远处转移。对于局部进展期直肠癌患者而言,术前新辅助放化疗+直肠全系膜切除术+术后辅助化疗是标准治疗手段。但个体对术前新辅助放化疗的病理反应具有很强的异质性,只有45%的直肠癌患者可以通过新辅助放化疗(Neoadjuvant chemoradiation,NCRT)获益。现阶段,术后病理结果评估
学位
目的抗性淀粉(Resistant starch,RS)是一种在小肠中不会被消化,而在结肠中可发酵的新型膳食纤维。近年来人们越来越关注RS,且对其生理功能的研究也愈发增多,不管是动物实验还是人体实验,都有研究表明RS对糖尿病(Diabetes mellitus,DM)防治有较好的作用,具体表现在RS可以改善空腹血糖(Fasting blood glucose,FBG)和胰岛素水平,减少胰岛素抵抗,增
学位
研究背景随着儿童超重肥胖及不健康生活方式的流行,儿童血压偏高已成为重要的公共卫生问题。中国营养与健康调查数据显示,根据“2018年中国高血压防治指南中的儿童血压偏高判定标准”,儿童青少年血压偏高检出率从1991年的7.0%增长至2015年的11.7%。心血管疾病(cardiovascular diseases,CVD)占我国居民死因构成之首,其患病率和死亡率现呈持续上升趋势。既往队列研究证据显示,
学位
背景:目前有研究人员用受试者工作特征(ROC)曲线分析和最大选择秩检验的方法来确定连续性风险因素对结局的阈值或者称截断值,这两种方法都是以获得最好的预测价值为目的的单变量分析方法。流行病学和卫生统计研究有两大重要目的:疾病预测和因果推断。基于因果关系研究界值也是有意义的,该界值不同于以往的风险阈值,它的确定应当控制混杂因素,建立在因果关系的基础上。目前在因果推断上比较高级的证据是随机对照试验和孟德
研究背景  非自杀性自伤(Non-suicidal self-injury, NSSI)是指在无自杀意图的情况下采取故意的,自我施加的对身体组织的破坏,其行为目的不被社会所认可。NSSI和自杀未遂均属于故意自我伤害,主要区别在于是否存在自杀意图。鉴于两者的区别,《精神障碍诊断和统计手册》第五版(2015年)首次将非自杀性自伤障碍从自杀行为障碍中独立出来,设立了单独的诊断标准,但目前相关研究仍以自杀
学位
背景和目的:  利用高维组学数据(基因组学、代谢组学、影像组学等)对疾病进行辅助诊断、亚型判别等对个性化诊疗具有重要意义。因为各种疾病类型及亚型的患病率不尽相同且相差悬殊,因此这些高维组学数据通常为多分类不平衡数据。多分类不平衡数据是指在数据集中一个或多个类别的构成比较小(少数类)而其它类别的构成比较大(多数类)。针对平衡数据构造的传统判别模型,通常以总体判别准确率作为优化目标。当这些模型被直接应
学位
[背景]  蜱是最早被确认可将病原体传播给人类的媒介节肢动物,是世界上仅次于蚊子的第二大传染病媒介,可以感染、传播和贮存的病原体包括病毒、细菌和原虫等,且通常会同时携带多种病原体。  病毒是蜱传病原体的重要组成部分。目前,已经从蜱中发现了至少160种病毒,其中25%左右与人类和/或动物的病毒感染性疾病有关,主要以各种硬蜱作为传播媒介。其中,正内罗病毒隶属于布尼亚病毒目、内罗病毒科,是有包膜且基因组
学位