论文部分内容阅读
研究背景
病因推断是流行病学研究的永恒主题,然而,由于受到混杂因素和逆向因果作用的干扰,在常规观察性研究中得到的暴露和结局的关联往往并不可靠。针对因果方向的确定及混杂因素的控制,孟德尔随机化方法(Mendelian Randomization,MR)使用遗传变异作为工具变量(instrumental variable,IV),在推定暴露到结局因果方向的前提下,准确估计从暴露到结局的因果关联效应,成为基因组学时代进行因果关联分析的重要方法。目前,随着高通量组学技术的普及,基于大型队列的全基因组关联研究(Genome-Wide Association Studies,GWAS)为MR提供了丰富的数据信息。随着MR方法应用领域的不断扩展,其理论方法研究也在不断深入。不同的MR方法在选择工具变量,水平多效性效应建模假设以及进行参数估计和统计推断的方式等方面有所不同。但是,在工具变量SNP选择策略上,现有MR方法都依赖于选择一小部分效应强度较强的SNP作为工具变量,而且考虑到SNP之间复杂的连锁不平衡(linkage disequilibrium,LD)关系,往往需要选取独立的SNP作为工具变量。然而,此种选择策略将会不可避免的导致估计偏倚问题和统计效能的降低。为了克服上述SNP选择策略带来的缺陷,一个很自然的想法便是全基因组SNPs不加选择的全部纳入工具变量集G;这便是新近发展的基于泛基因组(omnigenic)的工具变量思想(即,假设基因组的全部遗传变异都对表型性状产生贡献)。然而,将如此海量的全基因组SNPs(几百万到几千万)一并纳入两样本孟德尔随机化模型后,如何实现模型参数的高效、准确、无偏估计是必须解决的关键科学问题,也是本研究的核心研究内容。为此,本论文在方法学研究部分中首先提出泛基因组遗传假设,即由全基因组SNPs综合而成的基因工具变量G表征了遗传因子G对暴露X的全部效应,同时遗传因子G也允许直接对结局Y产生效应(即允许水平多效性存在);同时,允许两样本(Two Sample)孟德尔随机化中的两样本间可以存在样本重复。基于遗传学中的复杂性状泛基因组学遗传模式,遵循上述泛基因组假设而构建的两样本孟德尔随机化模型,本研究称之为泛基因组孟德尔随机化(Omnigenic Mendelian randomization,OMR)模型。
在当今生物组学时代,本研究所构建的OMR模型在各种跨组学分析中,具有广泛的应用前景。在理论意义上,利用MR可以确定因果方向的独特优势,将跨组学MR分析结果融合,便可构建DNA→RNA→蛋白质→代谢物→疾病表型的因果网络,从而打开暴露→疾病结局的“黑盒子”,为系统流行病学病因网络构建、药物靶点设计、预防或诊疗措施制定及评估提供支撑。作为实际应用案例,本论文依托国家食管癌早诊早治项目,在山东省食管癌高发区建立了食管癌早诊早治筛查队列。采用本研究构建的OMR模型,分析血清代谢物对食管鳞癌(esophageal squamous cell carcinoma,ESCC)的因果效应。通过整合基因组和代谢组数据,探索血清代谢物→食管鳞癌的因果关联。
基于泛基因组工具变量的孟德尔随机化方法研究(OMR)
研究方法
针对两独立样本的情形,本研究首先在遗传效应服从正态分布的假设下,采用复合似然估计策略,同时估计工具变量G对暴露X以及工具变量G对结局Y的效应;此外,为了能够包含基因组上广泛存在的LD信息,在构建复合似然函数时,采用了LD信息作为边际似然函数的权重,对复合似然函数进行加权。针对两重叠样本及单样本的情形,在上述模型中引入样本的协方差项,从而有效的避免了样本重复相关对参数估计的影响。进而,开发EM-NR联合算法,将期望最大化(Expectation-Maximization,EM)算法与牛顿-拉夫森(Newton-Raphson,NR)算法有机结合的以实现模型参数的高效、无偏估计。然后,采用刀切法(Jackkniferesampling)通过重抽样策略进行模型参数的假设检验。为了全面评估泛基因组孟德尔随机化模型(OMR模型)的有效性、准确性和稳健性,本研究设计了系统的统计模拟实验。基于人群中SNP基因型的真实分布及其LD模式,产生符合客观实际的模拟数据集;设定并遍历不同大小的遗传度、水平多效性、暴露X对结局Y的因果效应;同时,考虑不同遗传效应模式(包括基因组全部SNP具有遗传效应、基因组中1%的SNP有遗传效应、以及基因组中10%的SNP有遗传效应等多种情形);在上述各种条件组合下,通过统计模拟实验评价OMR模型的参数估计偏倚(覆盖率)、一类错误的稳定性、统计检验效能。此外,为了比较本研究所提出的OMR模型与目前最新MR分析模型的优劣性,在上述一系列模拟实验中,同时考察了IVW、Egger回归、MRMix、BWMR和CAUSE共五种方法。最后,为了评价上述模型对实际数据因果关联分析的效果,采用了两类实际数据集。第一类数据集设定为理论上因果关联必定存在的假想情形,包括分类变量“心血管疾病(cardiovascular disease,CAD)-CAD”和连续变量“身高-身高”两种情形。第二类数据集设定理论上因果关系可能存在的实际情形,包括20种数量性状→CAD和20种数量性状→哮喘两种情形。
研究结果
(1)理论证明结果:针对两独立样本、两重叠样本及单样本情形,分别构建基于汇总统计量的OMR模型,进一步开发EM-NR联合算法,其中,通过EM算法获得参数初始估计值;为了加快参数估计的收敛速度,将EM算法的初估值作为NR算法的初始值,进行快速迭代;从而,达到模型参数估计的高效性和准确性。
(2)统计模拟结果表明:1)在两独立样本情形下:①一类错误控制率:原假设成立时,在不存在水平多效性效应的模拟方案下,OMR模型可以给出合理或者轻度膨胀的一类错误控制率;当存在水平多效性效应时,OMR方法是唯一不受SNP遗传度以及遗传模式的影响,产生合理的一类错误控制率的方法。②检验效能:除极端稀疏遗传模式(即只有10个SNP影响暴露的情况,效应SNP所占比例≈1/30000)以外,OMR模型在所有模拟方案中均能表现出最高的检验效能。③估计准确度:OMR模型在所有模拟方案中均可以对因果效应进行准确估计并产生合理准确的覆盖率。2)两重叠样本及单样本情形下:①一类错误控制率:在存在水平多效性的模拟方案下,OMR模型在两重叠样本和单样本情况下均可提供合理的Ⅰ类错误控制率。②检验效能:OMR方法在两重叠样本及单样本情形均具有最高的检验效能。③估计准确度:OMR模型在两重叠样本和单样本情形下都能对因果效应进行准确估计。
(3)实例分析结果表明:1)CAD→CAD和身高→身高分析:结果显示,在比较的6种MR方法中,OMR模型是唯一能够在两种情形中均检测到具有统计学意义的因果关联,同时95%置信区间包含真实值1的方法。2)20种数量性状→CAD和20种数量性状→哮喘分析:在两种情形下,对于具有统计学意义的数量性状,利用OMR方法进行检验的阳性结果最多,且其阳性结果通常能够得到其他至少一种MR方法的验证,同时大部分阳性结果进一步得到了临床试验或文献证据支持。
应用研究:以血清代谢物对食管鳞癌的因果关联分析为例
研究方法:
依托国家食管癌早诊早治项目,分别构建食管鳞癌高发区人群mGWAS研究(纳入人数880人,数据子集1包含546人,数据子集2包含334人)和食管鳞癌病例对照研究(纳入人数1046人,其中对照969人,ESCC病例77人)。
(1)在食管鳞癌高发区人群mGWAS研究中,使用InfiniumOmni2.5Exome-8v1-3(Illumina)芯片对受试者全血样本进行基因分型检测。血清样本使用UHPLC-QTOF/MS进行非靶向代谢组学分析。对所有代谢物性状使用协变量(年龄、性别、内窥镜检查结果和前10个主成分)进行调整及标准化后,采用两阶段分析策略,分别在数据子集1和数据子集2中,使用线性回归模型分析全基因组约420万个SNPs与185种代谢物性状的关联性,使用meta分析整合两组分析结果。
(2)在食管鳞癌病例对照研究中,首先将食管鳞癌结局使用协变量(年龄、性别和前10个主成分)进行调整及标准化后,使用线性回归模型分析全基因组约420万个SNP位点与食管鳞癌发生风险的关联性。
(3)以185种血清代谢物mGWAS的汇总统计量作为暴露,食管鳞癌GWAS汇总统计量作为结局,使用全基因组4,085,890个SNP位点作为工具变量,采用OMR模型逐个检验血清代谢物对食管鳞癌发生风险的因果关联。
研究结果:
(1)食管鳞癌高发区人群人群mGWAS分析结果:经过统计检验,共有4327个SNP-代谢物关联强度小于全基因组和代谢组范围的显著性检验水平(Z检验,P<5×10-8/185=2.70×10-10),其中包括19个独立的SNP代谢物关联,涉及10个独立的SNP位点和17种不同的血清代谢物。19个关联中,7个成功重复验证了先前报道过的具有统计学意义的关联,另外12个在之前的研究中尚未被报道过。
(2)食管鳞癌GWAS分析结果:经过统计检验,共有1个SNP位点达到全基因组显著性检验水平(5×10-8),42个SNP位点达到建议显著性检验水平(1×10-5),取独立后,共计10个SNP位点被确定为topSNP位点。其中6个位点被报道与食管鳞癌相关,另外4个尚未被报道过与食管鳞癌的相关性,但已有文献探讨其与其他肿瘤或者食管鳞癌危险因素(如吸烟,饮酒等行为方式)的关联性,其与食管鳞癌的关联性有待进一步探索。
(3)OMR分析结果:共有11个血清代谢物性状对食管鳞癌的因果关联检验P值小于一般检验水准(0.05),其中9个小于Bonferrioni校正的检验水准(0.05/185=2.7×10-4)。肉豆蔻酸、吲哚-3-丙酮酸、次黄嘌呤、CDCA和PC18∶1是食管鳞癌的危险因素。L-组氨酸、肌酐、PG24∶1、PC41∶6、PC38∶4和PG23∶2是食管鳞癌的保护因素。肉豆蔻酸、CDCA和PC38∶4为mGWAS研究中发现的遗传调控代谢物,进而,构建潜在的基因组→血清代谢物→ESCC致病机制通路。
结论:
(1)分别在两独立样本、两重叠样本及单样本情形下,构建了基于泛基因组工具变量的孟德尔随机化分析方法(OMR方法),基于复合似然框架和EM-NR联合推导算法实现高效计算,统计模拟结果表明,OMR模型可以得出准确的因果效应估计值、合理校准的Ⅰ类错误控制率以及比现有MR方法更高的统计检验效能,并将上述算法编写为R包,方便研究者使用。
(2)实例数据验证表明,在理论真实因果效应为1的情形下,OMR模型不仅能够检测到具有统计学意义的关联,同时估计的置信区间包含真实值1;在真实因果效应未知的情形下,OMR模型发现的具有统计学意义的数量性状最多,同时大部分关联结果得到了临床试验或文献证据支持。
(3)为了验证OMR方法的实用性,首先通过食管鳞癌高发区人群mGWAS分析,获得血清代谢物全基因组关联分析汇总统计量,然后通过食管鳞癌病例对照人群GWAS分析,获得食管鳞癌全基因组关联分析汇总统计量,最后采用OMR模型探索血清代谢物与ESCC风险的因果关联,发现11个血清代谢物性状的因果关联显著性P值具有统计学意义(P<0.05),其中9种血清代谢物的关联强度经过Bonferrioni校正后仍然具有统计学意义。
病因推断是流行病学研究的永恒主题,然而,由于受到混杂因素和逆向因果作用的干扰,在常规观察性研究中得到的暴露和结局的关联往往并不可靠。针对因果方向的确定及混杂因素的控制,孟德尔随机化方法(Mendelian Randomization,MR)使用遗传变异作为工具变量(instrumental variable,IV),在推定暴露到结局因果方向的前提下,准确估计从暴露到结局的因果关联效应,成为基因组学时代进行因果关联分析的重要方法。目前,随着高通量组学技术的普及,基于大型队列的全基因组关联研究(Genome-Wide Association Studies,GWAS)为MR提供了丰富的数据信息。随着MR方法应用领域的不断扩展,其理论方法研究也在不断深入。不同的MR方法在选择工具变量,水平多效性效应建模假设以及进行参数估计和统计推断的方式等方面有所不同。但是,在工具变量SNP选择策略上,现有MR方法都依赖于选择一小部分效应强度较强的SNP作为工具变量,而且考虑到SNP之间复杂的连锁不平衡(linkage disequilibrium,LD)关系,往往需要选取独立的SNP作为工具变量。然而,此种选择策略将会不可避免的导致估计偏倚问题和统计效能的降低。为了克服上述SNP选择策略带来的缺陷,一个很自然的想法便是全基因组SNPs不加选择的全部纳入工具变量集G;这便是新近发展的基于泛基因组(omnigenic)的工具变量思想(即,假设基因组的全部遗传变异都对表型性状产生贡献)。然而,将如此海量的全基因组SNPs(几百万到几千万)一并纳入两样本孟德尔随机化模型后,如何实现模型参数的高效、准确、无偏估计是必须解决的关键科学问题,也是本研究的核心研究内容。为此,本论文在方法学研究部分中首先提出泛基因组遗传假设,即由全基因组SNPs综合而成的基因工具变量G表征了遗传因子G对暴露X的全部效应,同时遗传因子G也允许直接对结局Y产生效应(即允许水平多效性存在);同时,允许两样本(Two Sample)孟德尔随机化中的两样本间可以存在样本重复。基于遗传学中的复杂性状泛基因组学遗传模式,遵循上述泛基因组假设而构建的两样本孟德尔随机化模型,本研究称之为泛基因组孟德尔随机化(Omnigenic Mendelian randomization,OMR)模型。
在当今生物组学时代,本研究所构建的OMR模型在各种跨组学分析中,具有广泛的应用前景。在理论意义上,利用MR可以确定因果方向的独特优势,将跨组学MR分析结果融合,便可构建DNA→RNA→蛋白质→代谢物→疾病表型的因果网络,从而打开暴露→疾病结局的“黑盒子”,为系统流行病学病因网络构建、药物靶点设计、预防或诊疗措施制定及评估提供支撑。作为实际应用案例,本论文依托国家食管癌早诊早治项目,在山东省食管癌高发区建立了食管癌早诊早治筛查队列。采用本研究构建的OMR模型,分析血清代谢物对食管鳞癌(esophageal squamous cell carcinoma,ESCC)的因果效应。通过整合基因组和代谢组数据,探索血清代谢物→食管鳞癌的因果关联。
基于泛基因组工具变量的孟德尔随机化方法研究(OMR)
研究方法
针对两独立样本的情形,本研究首先在遗传效应服从正态分布的假设下,采用复合似然估计策略,同时估计工具变量G对暴露X以及工具变量G对结局Y的效应;此外,为了能够包含基因组上广泛存在的LD信息,在构建复合似然函数时,采用了LD信息作为边际似然函数的权重,对复合似然函数进行加权。针对两重叠样本及单样本的情形,在上述模型中引入样本的协方差项,从而有效的避免了样本重复相关对参数估计的影响。进而,开发EM-NR联合算法,将期望最大化(Expectation-Maximization,EM)算法与牛顿-拉夫森(Newton-Raphson,NR)算法有机结合的以实现模型参数的高效、无偏估计。然后,采用刀切法(Jackkniferesampling)通过重抽样策略进行模型参数的假设检验。为了全面评估泛基因组孟德尔随机化模型(OMR模型)的有效性、准确性和稳健性,本研究设计了系统的统计模拟实验。基于人群中SNP基因型的真实分布及其LD模式,产生符合客观实际的模拟数据集;设定并遍历不同大小的遗传度、水平多效性、暴露X对结局Y的因果效应;同时,考虑不同遗传效应模式(包括基因组全部SNP具有遗传效应、基因组中1%的SNP有遗传效应、以及基因组中10%的SNP有遗传效应等多种情形);在上述各种条件组合下,通过统计模拟实验评价OMR模型的参数估计偏倚(覆盖率)、一类错误的稳定性、统计检验效能。此外,为了比较本研究所提出的OMR模型与目前最新MR分析模型的优劣性,在上述一系列模拟实验中,同时考察了IVW、Egger回归、MRMix、BWMR和CAUSE共五种方法。最后,为了评价上述模型对实际数据因果关联分析的效果,采用了两类实际数据集。第一类数据集设定为理论上因果关联必定存在的假想情形,包括分类变量“心血管疾病(cardiovascular disease,CAD)-CAD”和连续变量“身高-身高”两种情形。第二类数据集设定理论上因果关系可能存在的实际情形,包括20种数量性状→CAD和20种数量性状→哮喘两种情形。
研究结果
(1)理论证明结果:针对两独立样本、两重叠样本及单样本情形,分别构建基于汇总统计量的OMR模型,进一步开发EM-NR联合算法,其中,通过EM算法获得参数初始估计值;为了加快参数估计的收敛速度,将EM算法的初估值作为NR算法的初始值,进行快速迭代;从而,达到模型参数估计的高效性和准确性。
(2)统计模拟结果表明:1)在两独立样本情形下:①一类错误控制率:原假设成立时,在不存在水平多效性效应的模拟方案下,OMR模型可以给出合理或者轻度膨胀的一类错误控制率;当存在水平多效性效应时,OMR方法是唯一不受SNP遗传度以及遗传模式的影响,产生合理的一类错误控制率的方法。②检验效能:除极端稀疏遗传模式(即只有10个SNP影响暴露的情况,效应SNP所占比例≈1/30000)以外,OMR模型在所有模拟方案中均能表现出最高的检验效能。③估计准确度:OMR模型在所有模拟方案中均可以对因果效应进行准确估计并产生合理准确的覆盖率。2)两重叠样本及单样本情形下:①一类错误控制率:在存在水平多效性的模拟方案下,OMR模型在两重叠样本和单样本情况下均可提供合理的Ⅰ类错误控制率。②检验效能:OMR方法在两重叠样本及单样本情形均具有最高的检验效能。③估计准确度:OMR模型在两重叠样本和单样本情形下都能对因果效应进行准确估计。
(3)实例分析结果表明:1)CAD→CAD和身高→身高分析:结果显示,在比较的6种MR方法中,OMR模型是唯一能够在两种情形中均检测到具有统计学意义的因果关联,同时95%置信区间包含真实值1的方法。2)20种数量性状→CAD和20种数量性状→哮喘分析:在两种情形下,对于具有统计学意义的数量性状,利用OMR方法进行检验的阳性结果最多,且其阳性结果通常能够得到其他至少一种MR方法的验证,同时大部分阳性结果进一步得到了临床试验或文献证据支持。
应用研究:以血清代谢物对食管鳞癌的因果关联分析为例
研究方法:
依托国家食管癌早诊早治项目,分别构建食管鳞癌高发区人群mGWAS研究(纳入人数880人,数据子集1包含546人,数据子集2包含334人)和食管鳞癌病例对照研究(纳入人数1046人,其中对照969人,ESCC病例77人)。
(1)在食管鳞癌高发区人群mGWAS研究中,使用InfiniumOmni2.5Exome-8v1-3(Illumina)芯片对受试者全血样本进行基因分型检测。血清样本使用UHPLC-QTOF/MS进行非靶向代谢组学分析。对所有代谢物性状使用协变量(年龄、性别、内窥镜检查结果和前10个主成分)进行调整及标准化后,采用两阶段分析策略,分别在数据子集1和数据子集2中,使用线性回归模型分析全基因组约420万个SNPs与185种代谢物性状的关联性,使用meta分析整合两组分析结果。
(2)在食管鳞癌病例对照研究中,首先将食管鳞癌结局使用协变量(年龄、性别和前10个主成分)进行调整及标准化后,使用线性回归模型分析全基因组约420万个SNP位点与食管鳞癌发生风险的关联性。
(3)以185种血清代谢物mGWAS的汇总统计量作为暴露,食管鳞癌GWAS汇总统计量作为结局,使用全基因组4,085,890个SNP位点作为工具变量,采用OMR模型逐个检验血清代谢物对食管鳞癌发生风险的因果关联。
研究结果:
(1)食管鳞癌高发区人群人群mGWAS分析结果:经过统计检验,共有4327个SNP-代谢物关联强度小于全基因组和代谢组范围的显著性检验水平(Z检验,P<5×10-8/185=2.70×10-10),其中包括19个独立的SNP代谢物关联,涉及10个独立的SNP位点和17种不同的血清代谢物。19个关联中,7个成功重复验证了先前报道过的具有统计学意义的关联,另外12个在之前的研究中尚未被报道过。
(2)食管鳞癌GWAS分析结果:经过统计检验,共有1个SNP位点达到全基因组显著性检验水平(5×10-8),42个SNP位点达到建议显著性检验水平(1×10-5),取独立后,共计10个SNP位点被确定为topSNP位点。其中6个位点被报道与食管鳞癌相关,另外4个尚未被报道过与食管鳞癌的相关性,但已有文献探讨其与其他肿瘤或者食管鳞癌危险因素(如吸烟,饮酒等行为方式)的关联性,其与食管鳞癌的关联性有待进一步探索。
(3)OMR分析结果:共有11个血清代谢物性状对食管鳞癌的因果关联检验P值小于一般检验水准(0.05),其中9个小于Bonferrioni校正的检验水准(0.05/185=2.7×10-4)。肉豆蔻酸、吲哚-3-丙酮酸、次黄嘌呤、CDCA和PC18∶1是食管鳞癌的危险因素。L-组氨酸、肌酐、PG24∶1、PC41∶6、PC38∶4和PG23∶2是食管鳞癌的保护因素。肉豆蔻酸、CDCA和PC38∶4为mGWAS研究中发现的遗传调控代谢物,进而,构建潜在的基因组→血清代谢物→ESCC致病机制通路。
结论:
(1)分别在两独立样本、两重叠样本及单样本情形下,构建了基于泛基因组工具变量的孟德尔随机化分析方法(OMR方法),基于复合似然框架和EM-NR联合推导算法实现高效计算,统计模拟结果表明,OMR模型可以得出准确的因果效应估计值、合理校准的Ⅰ类错误控制率以及比现有MR方法更高的统计检验效能,并将上述算法编写为R包,方便研究者使用。
(2)实例数据验证表明,在理论真实因果效应为1的情形下,OMR模型不仅能够检测到具有统计学意义的关联,同时估计的置信区间包含真实值1;在真实因果效应未知的情形下,OMR模型发现的具有统计学意义的数量性状最多,同时大部分关联结果得到了临床试验或文献证据支持。
(3)为了验证OMR方法的实用性,首先通过食管鳞癌高发区人群mGWAS分析,获得血清代谢物全基因组关联分析汇总统计量,然后通过食管鳞癌病例对照人群GWAS分析,获得食管鳞癌全基因组关联分析汇总统计量,最后采用OMR模型探索血清代谢物与ESCC风险的因果关联,发现11个血清代谢物性状的因果关联显著性P值具有统计学意义(P<0.05),其中9种血清代谢物的关联强度经过Bonferrioni校正后仍然具有统计学意义。