基于TCGA数据鉴定出一组新的可预测肺鳞癌预后的甲基化标记物

来源 :南方医科大学 | 被引量 : 0次 | 上传用户:zhanghao2018
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
研究背景:肺癌是全球范围内最常见的恶性肿瘤之一,同时也是世界范围内癌症相关性死亡最主要原因之一。肺癌起病隐匿,通常被临床诊断时已经是为晚期,总体5年生存率仍低于20%。肺鳞状细胞癌(LUSC)是肺癌的一种特殊类型,其相较于其他类型的肺癌,5年生存率更低。近几年来有关肺鳞癌与DNA甲基化的研究也越来越多。但是研究DNA的甲基化的具体位点与肺鳞状细胞癌预后的研究仍然较为缺乏。研究目的在本项研究中,我们旨在依托TCGA数据库和GEO数据库的基因测序数据和DNA甲基化数据,寻找潜的可能与肺鳞癌预后相关的DNA甲基化位点。随后根据这些甲基化位点构建肺鳞癌预后模型并进行验证。同时进一步研究是什么机制导致在该预后模型下会出现不同预后差异,以及在化学药物治疗方案的选择上予以探索。材料与方法1.数据下载首先我们利用R程序从TCGA和GEO数据库中下载包含肺鳞癌患者DNA数据的癌和癌旁样本550个和359个包含DNA甲基化数据的肺鳞癌患者样本的癌和癌旁样本数据。同时下载这些样本对应的临床数据(截止至2019年6月份),并随后将其处理为标准化的表达矩阵。2.目的基因筛选我们对比肺鳞癌和癌旁样本的基因表达矩阵,并筛选出差异表达基因。然后我们对比肺鳞癌和癌旁样本的DNA甲基化基因测序结果,得到的差异甲基化基因。接下来我们将DEGs与DMGs进行合并取交集,并从中选出甲基化水平和基因表达水平相反的基因作为我们最终筛选出来的目的基因。3.与预后相关甲基化位点的筛选为了接下来目的甲基化位点的筛选以及预后模型的构建和验证。我们将从TCGA数据库下载的包含DNA甲基化数据以及临床数据的样本随机按照2:1的比例随机分成training组和test组同时从GEO数据库下载的包含DNA甲基化数据及对应临床数据的数据集GSE56044作为validation组,以便于接下来可以进一步跨数据库验证预测位点模型的准确性。随后再training组进行预后相关甲基化位点的筛选。4.预后模型的构建及验证我们根据上述筛选出的位点在多因素Cox回归分析当中的回归系数,构建预后模型。公式如下:风险评分(Risk Score,RS)=(?)Methi*Coefi然后将training组中危险评分的中位数作为我们的分界值,依次将training组、test组、validation组划分为高低风险组,并进行K-M生存分析及ROC分析进行预后模型的验证和准确性特异性的验证。同时我们还对training组进行nomogram分析以进一步明确是否风险评分是其独立危险因素。5.高低风险组预后差异机制及常见化疗药物敏感性探索为了进一步明确预后模型所构建的高低危险组之间存在预后差异的原因,我们使用GSVA分析方法筛选training组中高风险组和低风险组之间可能存在的差异信号通路。同时依据training组中所得到的高低危险组分界点,结合提取到的GDSC数据库中经药物处理的肺鳞癌(LUSC)细胞系的甲基化数据。分析GDSC数据库中,高低风险组细胞系在肺鳞癌常见化疗药物当中是否存在药敏性的差异。研究结果1.我们共筛选出7332个差异表达基因(DEGs),389个差异甲基化基因(DMGs),筛选标准|log2FC|≥1,P<0.05,FDR<0.05。紧接着我们将DEGs和DMGs取交集,最终筛选出表达相反的22个目的基因。2.我们随后将上述22个目的基因的甲基化位点进行提取,最终得到620个有效甲基化位点。然后结合training组数据进行单因素cox回归分析、随机森林算法(RSFVH)和多因素COX分析的三次筛选,最终得到3个目标甲基化位点(P<0.05),分别为cg06675147、cg07064331 和cg20429172。3.通过多因素COX回归分析构建风险评估模型,在training组中,高风险评分患者的总体生存期(OS)(风险比[HR]:2.72,95%置信区间[CI]:1.82-4.07,P<0.001)比低风险的患者要短。在test组和validation组中也得到了类似的结果。接着我们再次使用了分析验证了这组甲基化标志物确实是肺鳞状细胞癌患者预后相关的独立因素,并且根据标志物的甲基化水平和其他临床上与预后相关的危险因素(共同构建了诺莫(nomogram)图以量化预测肺鳞癌患者。4.最后我们使用基因集变异分析法(GSVA)分析了training组中的高、低危险组之间可能存在的通路差异,结果显示在细胞周期/有丝分裂,酪氨酸激酶受体,细胞外调节蛋白激酶/丝裂原活化蛋白激酶等通路是有显著差异富集的(非参法,P<0.05)。于此同时我们提取了肿瘤药物敏感性基因组学数据库(GDSC)中有常见化疗药物IC50数据的肺鳞癌细胞系的数据,并且根据标志物甲基化水平将其分为高低风险组。结果提示在常见肺鳞癌化疗药物当中,高风险组相较于低风险组对吉西他滨和多西紫杉醇更敏感。研究结论1.我们通过TCGA数据库筛选了与肺鳞癌预后的相关的三个DNA甲基化位点标志物(cg06675147,cg07064331和cg20429172)并以此构建了预后风险预测模型。2.我们通过TCGA数据库和GEO数据库交叉印证了这三个甲基化位点的预测模型确实具有较为精确和敏感的预后预测能力,而且也证实其是肺鳞癌预后的独立影响因素。3.我们随后结合KEGG,BIOCARTA和REACTOME等通路数据库数据,通过GSVA分析发现高低风险组之间存在cell cycle/mitotic,ErbB和ERK/MAPK等通路的差异现象。这些通路的差异可能是导致他们预后不同的原因之一。4.最后我们结合GDSC数据库的化疗药物敏感性数据发现,高风险组细胞系对吉西他滨和多西紫杉醇更敏感,提示高风险组人群可能对这两种药物反应性更好。
其他文献
目的了解我院腹股沟疝修补术围手术期抗菌药物的使用情况,为加强临床合理使用抗菌药物提供依据。方法对我院2011年11月至2012年6月腹股沟疝修补术出院病例共89例进行回顾性调