论文部分内容阅读
研究背景:食管癌是食管黏膜的恶性消化道肿瘤,由食管鳞状上皮或腺上皮的异常增生所致。我国是食管癌高发区,约占全世界发病或死亡人数的一半以上,而且95%以上为食管鳞状细胞癌(简称食管鳞癌,ESCC)。由于缺乏有效的早期诊断标志物,大部分患者发现时已是临床晚期,预后较差,5年生存率仅为21%,是我国亟待解决的重大公共卫生问题之一。ESCC的发生发展是一个多因素、多病程、进行性的演进过程,从“基底细胞增生→轻、中、重度不典型增生/原位癌(癌前病变)→浸润癌”的过程需要几年到十几年不等。癌前病变阶段是其诊断治疗的宝贵时期,若能够早诊早治可以使疾病逆转,大大降低其癌变的几率。目前对ESCC的病因学研究多是基于流行病学的研究,提示吸烟和饮酒是其发生发展的重要影响因素,然而其致病机理仍不清楚。因此,探索吸烟饮酒所致食管鳞状上皮病变(ESEL)的生物标志物,对于高发区人群食管癌早诊早治具有重要的参考价值。
代谢组学是通过靶向或非靶向策略检测血清、尿液或组织等生物样品的代谢指纹图谱,为疾病的病理生物学机制研究提供了一个很好的方向。基于代谢组学技术检测的小分子代谢物不仅是机体生命活动、生化代谢的物质基础,还反映了机体对外部环境刺激的响应。例如:吸烟、饮酒等生活行为方式会导致机体的代谢物变化。同样,食管癌代谢组学研究也发现多种氨基酸、脂类物质和能量代谢物质的代谢失调。这些研究结果说明代谢组学在食管癌早诊早治方面的研究具有潜力,因此我们假设代谢物是吸烟饮酒暴露导致食管鳞状上皮病变发生的中介变量,进行探索性研究。但由于代谢组学数据属于高维数据,具有高维小样本的特点,使得如何在高维代谢组学数据中筛选中介代谢物成为一个难题。
目前对于高维数据的中介分析方法尚处于探索阶段,大体可以分为两种:一种是基于线性结构方程模型(LSEM)正则化;另一种是基于主成分分析(PCA)进行降维来进行中介变量筛选。而且两种方法都需要对每一个中介变量和结果变量分别拟合模型,通过各种方法进行效应估计。基于主成分分析的高维中介分析方法可以得到一系列中介变量的线性组合,因此可以提供更多可解释的中介变量,且不用考虑中介变量之间的相关性。但同样也由于得到的是一系列中介变量的线性组合,而不是特定的某个中介变量,其解释相对困难,对于研究目的是筛选出特定中介变量的研究不适用。基于LSEM的高维中介分析方法多是通过对回归系数进行惩罚来实现变量选择的目的,从而得到具体的中介变量。通过Lasso、岭回归等凸函数进行惩罚运用最普遍,具有稀疏估计快速、连续的优点。但由于损失函数也是凸函数,导致效应估计有且只有一个最小值点,其估计是有偏的,不满足Oracle性质。因此,有研究提出使用凹惩罚的方法,例如最小最大凹惩罚(MCP)方法,具有模型选择的一致性,近似无偏,且缓解了一般凹惩罚方法的局部最优和系数估计不稳定问题。由于正则化的方法较多,故本研究拟通过模拟研究来比较各种惩罚方法筛选中介变量的准确性;并根据模拟结果来探讨吸烟饮酒暴露与ESEL发生之间的关系是否由血清代谢物介导。
研究方法:本研究通过模拟的方法,比较单变量中介分析、以及基于Lasso、光滑剪枝绝对偏差(SCAD)和MCP正则化的3种高维中介分析方法的效应估计准确性。每种方法模拟重复500次,计算中介效应的估计值、均方误差(MSE)、族错误率(FWER)和检验效能来评价不同方法中介效应估计的准确性和稳健性。
对山东省肥城市食管癌筛查平台2013-2014年收集的研究对象进行代谢组学检测和病理学诊断。应用多重logistic回归评估吸烟、饮酒暴露与ESEL风险之间的关系,计算OR值和95%置信区间。使用线性回归模型初步评估各种暴露与代谢物以及代谢物与ESEL结局的关系。使用错误发现率(FDR)校正多重比较问题。然后通过最优的高维中介分析方法筛选吸烟饮酒与ESEL风险之间的潜在中介代谢物。并通过单变量因果中介分析方法计算各个中介代谢物的自然间接效应(NIE)验证筛选出的中介代谢物。
研究结果:
模拟结果显示:
(1)在单变量中介分析中,中介效应的估计值与样本量的大小以及中介变量维度没有明显关联,变化不大。MSE有随着样本量增加逐渐减少的趋势,但是变化也不明显。对于三种高维中介分析方法,随着样本量n的增加,中介效应的估计值接近真实值且MSE逐渐减小。而中介变量维度对效应估计以及均方误差的影响不大。
(2)单变量中介分析对Ⅰ类错误的控制低于给定的α,FWER均为0,同时检验效能也低。而三种高维中介分析方法对Ⅰ类错误的控制较为保守,且相差不大,表现出样本含量小时对Ⅰ类错误的控制较差,而随着样本量增加降低到合理的水平。同样,三种高维中介分析方法的检验效能也呈现出升高的趋势,而且基于联合显著性检验的MCP方法的检验效能最高。基于以上结果,表明MCP方法的综合评价较好,故选其进行实例部分的高维中介分析。
实例研究结果显示:
吸烟者相对不吸烟者的ESEL风险是3.11倍(OR=3.11,95%CI1.63-6.05);吸烟指数每增加一个单位,ESEL的风险增加56%(OR=1.56,95%CI1.18-2.13);饮酒与ESEL风险增加1.97倍相关(OR=1.97,95%CI1.05-3.77)。在多重检验校正水平FDR<0.05的标准下,与吸烟相关的代谢物有3个,均下调;与吸烟指数相关的代谢物有5个;与饮酒相关的代谢物有16个,8个上调、8个下调;而与ESEL相关的代谢物有134个,且呈现下调趋势的较多。
高维中介分析结果显示:共有3个代谢物为吸烟导致ESEL的中介代谢物,包括肉碱(9∶0),L-组氨酸和L-谷氨酰胺,对应的中介效应分别为13.53%,24.80%和26.58%;对于累积吸烟暴露,即吸烟指数,筛选出5种潜在的中介代谢物。除了吸烟筛选出的3种代谢物,还选择了PG(14∶1/7∶0)和胆酸。5种代谢物的中介效应分别为7.87%、35.51%、29.54%、10.78%和21.01%;对于饮酒暴露,共筛选出4种代谢物,分别是PC(P-16∶0/14∶1)、L-组氨酸、门冬酰胺-苯丙氨酸和L-谷氨酰胺。它们的中介效应分别为51.42%,63.62%,-19.91%和14.14%。
单变量中介分析进一步证实:L-组氨酸和L-谷氨酰胺为吸烟所致ESEL的中介代谢物;在吸烟指数方面,L-组氨酸和L-谷氨酰胺的中介效应与吸烟相似,胆酸的中介效应也显著;对于饮酒暴露,发现PC(P-16∶0/14∶1),L-组氨酸和L-谷氨酰胺的自然间接效应显著。
研究结论:(1)基于MCP的高维中介分析方法检验效能比单变量中介分析、基于Lasso和SCAD的高维中介分析方法高,而且对于Ⅰ类错误的控制也较好,更适合于高维组学中介变量筛选;(2)吸烟可以明显增加ESEL的风险,且这一过程可由L-谷氨酰胺、L-组氨酸和胆酸介导;(3)饮酒也可以明显增加ESEL的风险,3种血清代谢物(PC(P-16∶0/14∶1),L-组氨酸和L-谷氨酰胺)可以介导这一过程。
代谢组学是通过靶向或非靶向策略检测血清、尿液或组织等生物样品的代谢指纹图谱,为疾病的病理生物学机制研究提供了一个很好的方向。基于代谢组学技术检测的小分子代谢物不仅是机体生命活动、生化代谢的物质基础,还反映了机体对外部环境刺激的响应。例如:吸烟、饮酒等生活行为方式会导致机体的代谢物变化。同样,食管癌代谢组学研究也发现多种氨基酸、脂类物质和能量代谢物质的代谢失调。这些研究结果说明代谢组学在食管癌早诊早治方面的研究具有潜力,因此我们假设代谢物是吸烟饮酒暴露导致食管鳞状上皮病变发生的中介变量,进行探索性研究。但由于代谢组学数据属于高维数据,具有高维小样本的特点,使得如何在高维代谢组学数据中筛选中介代谢物成为一个难题。
目前对于高维数据的中介分析方法尚处于探索阶段,大体可以分为两种:一种是基于线性结构方程模型(LSEM)正则化;另一种是基于主成分分析(PCA)进行降维来进行中介变量筛选。而且两种方法都需要对每一个中介变量和结果变量分别拟合模型,通过各种方法进行效应估计。基于主成分分析的高维中介分析方法可以得到一系列中介变量的线性组合,因此可以提供更多可解释的中介变量,且不用考虑中介变量之间的相关性。但同样也由于得到的是一系列中介变量的线性组合,而不是特定的某个中介变量,其解释相对困难,对于研究目的是筛选出特定中介变量的研究不适用。基于LSEM的高维中介分析方法多是通过对回归系数进行惩罚来实现变量选择的目的,从而得到具体的中介变量。通过Lasso、岭回归等凸函数进行惩罚运用最普遍,具有稀疏估计快速、连续的优点。但由于损失函数也是凸函数,导致效应估计有且只有一个最小值点,其估计是有偏的,不满足Oracle性质。因此,有研究提出使用凹惩罚的方法,例如最小最大凹惩罚(MCP)方法,具有模型选择的一致性,近似无偏,且缓解了一般凹惩罚方法的局部最优和系数估计不稳定问题。由于正则化的方法较多,故本研究拟通过模拟研究来比较各种惩罚方法筛选中介变量的准确性;并根据模拟结果来探讨吸烟饮酒暴露与ESEL发生之间的关系是否由血清代谢物介导。
研究方法:本研究通过模拟的方法,比较单变量中介分析、以及基于Lasso、光滑剪枝绝对偏差(SCAD)和MCP正则化的3种高维中介分析方法的效应估计准确性。每种方法模拟重复500次,计算中介效应的估计值、均方误差(MSE)、族错误率(FWER)和检验效能来评价不同方法中介效应估计的准确性和稳健性。
对山东省肥城市食管癌筛查平台2013-2014年收集的研究对象进行代谢组学检测和病理学诊断。应用多重logistic回归评估吸烟、饮酒暴露与ESEL风险之间的关系,计算OR值和95%置信区间。使用线性回归模型初步评估各种暴露与代谢物以及代谢物与ESEL结局的关系。使用错误发现率(FDR)校正多重比较问题。然后通过最优的高维中介分析方法筛选吸烟饮酒与ESEL风险之间的潜在中介代谢物。并通过单变量因果中介分析方法计算各个中介代谢物的自然间接效应(NIE)验证筛选出的中介代谢物。
研究结果:
模拟结果显示:
(1)在单变量中介分析中,中介效应的估计值与样本量的大小以及中介变量维度没有明显关联,变化不大。MSE有随着样本量增加逐渐减少的趋势,但是变化也不明显。对于三种高维中介分析方法,随着样本量n的增加,中介效应的估计值接近真实值且MSE逐渐减小。而中介变量维度对效应估计以及均方误差的影响不大。
(2)单变量中介分析对Ⅰ类错误的控制低于给定的α,FWER均为0,同时检验效能也低。而三种高维中介分析方法对Ⅰ类错误的控制较为保守,且相差不大,表现出样本含量小时对Ⅰ类错误的控制较差,而随着样本量增加降低到合理的水平。同样,三种高维中介分析方法的检验效能也呈现出升高的趋势,而且基于联合显著性检验的MCP方法的检验效能最高。基于以上结果,表明MCP方法的综合评价较好,故选其进行实例部分的高维中介分析。
实例研究结果显示:
吸烟者相对不吸烟者的ESEL风险是3.11倍(OR=3.11,95%CI1.63-6.05);吸烟指数每增加一个单位,ESEL的风险增加56%(OR=1.56,95%CI1.18-2.13);饮酒与ESEL风险增加1.97倍相关(OR=1.97,95%CI1.05-3.77)。在多重检验校正水平FDR<0.05的标准下,与吸烟相关的代谢物有3个,均下调;与吸烟指数相关的代谢物有5个;与饮酒相关的代谢物有16个,8个上调、8个下调;而与ESEL相关的代谢物有134个,且呈现下调趋势的较多。
高维中介分析结果显示:共有3个代谢物为吸烟导致ESEL的中介代谢物,包括肉碱(9∶0),L-组氨酸和L-谷氨酰胺,对应的中介效应分别为13.53%,24.80%和26.58%;对于累积吸烟暴露,即吸烟指数,筛选出5种潜在的中介代谢物。除了吸烟筛选出的3种代谢物,还选择了PG(14∶1/7∶0)和胆酸。5种代谢物的中介效应分别为7.87%、35.51%、29.54%、10.78%和21.01%;对于饮酒暴露,共筛选出4种代谢物,分别是PC(P-16∶0/14∶1)、L-组氨酸、门冬酰胺-苯丙氨酸和L-谷氨酰胺。它们的中介效应分别为51.42%,63.62%,-19.91%和14.14%。
单变量中介分析进一步证实:L-组氨酸和L-谷氨酰胺为吸烟所致ESEL的中介代谢物;在吸烟指数方面,L-组氨酸和L-谷氨酰胺的中介效应与吸烟相似,胆酸的中介效应也显著;对于饮酒暴露,发现PC(P-16∶0/14∶1),L-组氨酸和L-谷氨酰胺的自然间接效应显著。
研究结论:(1)基于MCP的高维中介分析方法检验效能比单变量中介分析、基于Lasso和SCAD的高维中介分析方法高,而且对于Ⅰ类错误的控制也较好,更适合于高维组学中介变量筛选;(2)吸烟可以明显增加ESEL的风险,且这一过程可由L-谷氨酰胺、L-组氨酸和胆酸介导;(3)饮酒也可以明显增加ESEL的风险,3种血清代谢物(PC(P-16∶0/14∶1),L-组氨酸和L-谷氨酰胺)可以介导这一过程。