论文部分内容阅读
背景肝细胞癌(Hepatocellular carcinoma,HCC)是目前临床上最常见的肝癌类型,占肝癌总发病数的85%[1]。最新的研究结果表明,全球肝癌的发病率和死亡率分别位居第6位和第3位,2020年约90.6万肝癌新发病例和83万肝癌相关死亡病例[1]。肝癌的发病率和死亡率取决于患者的种族、地区、年龄、性别等[1,2]。未经治疗的肝癌患者中位总生存期(Overall survival,OS)不到9个月[3,4],而现有的肝癌治疗方案,如手术、射频微波消融、介入、分子靶向、化疗及肝移植等,只能使极少数患者获益。在过去5年里,免疫检查点抑制剂给肝癌的治疗带来了革命性的变化,阿特珠单抗联合贝伐珠单抗联用作为一线疗法,与此前的标准疗法相比,显著延长了晚期肝癌患者的生命,但由于缺乏可靠的生物标志物等原因,仍旧只有部分患者受益。既往研究发现,肝癌患者的预后与他们的免疫微环境及临床病理特征有关[5,6]。近年,随着基因组学技术的发展和大量肿瘤测序数据的公开,肿瘤生物信息学可以通过分析癌症基因表达谱来探索癌症发病机理。通过多组学方法识别肿瘤生物标志物和肿瘤预后之间的关系,使得寻找新的可靠的癌症诊断、预测、预后和治疗分子标志物成为可能。目的利用大样本测序数据,分析筛选与肝细胞癌患者预后相关的免疫相关基因,深入探索筛选出的基因对肝细胞癌患者免疫微环境的影响及其对免疫治疗的响应性。结合临床相关性研究探索其在不同分期患者中的表达情况,并利用体外实验验证其对肝癌细胞系表型的影响。方法1.下载TCGA数据库肝癌患者基因表达数据和GEO数据库3个肝癌相关数据集(GSE14520,GSE101685及GSE36376),共851例肝癌患者的基因表达数据。利用主成分分析(Principal component analysis)检测数据集内部批次效应[7]。差异表达基因(Differential expression genes,DEGs)的筛选阈为 log fold change(logFC)>1.0 及 p 值<0.05[8]。利用 The Immunology Database and Analysis Portal(Immport)数据库中1811个肿瘤免疫相关基因数据,与筛选出的差异表达基因进行韦恩图分析,得到共同的免疫相关基因。ClusterProfile package对得到的免疫相关预后基因进行GO注释分析和KEGG途径富集分析,False Discovery Rate(FDR)<0.05被认为具有统计学意义[9]。基因集富集分析(Gene set enrichment analysis,GSEA)中,调整后的P值小于0.05被认为具有统计学意义。GSVA package被用于基因集变异分析(Gene Set Variation Analysis,GSVA)[10]。2.蛋白质-蛋白质相互作用(Protein-protein interaction,PPI)通过STRING在线工具库预测并构建PPI网络,利用Cytoscape(v3.7.2)构建得分大于0.4基因的可视化网络模型[11,12]。不同节点得分由CytoHubba里最大集团中心性(Maximal Clique Centrality,MCC)插件计算,得分前6的基因被用于后续分析研究[13]。3.生存分析采用Kaplan-Meier法和Cox回归分析。预后模型的构建、评估及可视化采用 R 中 rms,survival,survminer,ggplot2 package,ROC 曲线采用 pROC package分析绘制。模型受益人群预测利用rms package以365天为截点,采用决策曲线分析法(Decision curve analysis,DCA)进行评估。使用来自西京医院的24对病人癌及癌旁组织通过免疫组化方法对基因表达情况做外部验证,而ICGC日本理化研究所的229例肝癌患者数据作为外部验证集用于评估模型效能。免疫治疗获益人群的预测采用 Tumor Immune Dysfunction and Exclusion(TIDE)算法。4.肝癌患者癌组织及配对癌旁组织石蜡切片来自西京医院病理科。敲减ESR1的HepG2及Hep3B细胞系由慢病毒构建。利用qPCR,蛋白免疫印迹,Transwell,细胞划痕,CCK-8,克隆形成,流式细胞术等手段检测了敲减ESR1后肝癌细胞系表型行为变化。5.所有数据处理和分析由R软件(4.1.3版)完成。正态分布变量采用独立t检验计算,非正态分布变量之间的差异采用Wilcoxon秩和检验。两组分类变量使用卡方检验或Fisher精确检验。不同基因间的相关系数通过Pearson相关分析计算。Log-rank test用于考察两组患者间生存时间变化的意义。P值均为双侧,P小于0.05时具有统计学意义。*代表P小于0.05,**代表P小于0.01,***代表P小于0.001。结果1.利用TCGA,GSE14520,GSE101685及GSE36376四个数据集的患者测序数据,通过差异表达分析结合韦恩图分析得到了 206个共同的差异表达基因。206个共同的差异表达基因与目前公认权威的肿瘤免疫数据库Immport中1811个肿瘤相关免疫基因取交集得到20个差异表达的免疫相关基因。GO分析结果显示差异表达基因与对金属离子的反应、生长激素受体复合物、胶原蛋白三聚体以及肽的结合等生物学过程密切相关。KEGG功能分析结果提示差异表达的免疫相关基因主要影响IL-17信号通路、内分泌抵抗、肿瘤坏死因子通路以及雌激素信号通路等。基于TCGA数据库差异表达分析结果,GSEA富集分析结果显示核糖体、补体途径、PPAR信号通路以及糖酵解糖异生等通路在肿瘤组织中显著富集。2.我们将20个差异表达的免疫相关基因纳入STRING数据库中构建PPI网络,基于MCC算法获取得分前6的基因作为特征性免疫相关基因,分别为MMP9,FOS,CAT,ESR1,ANGPTL3和KLKB1。ROC曲线分析结果表明,特征性免疫相关基因均在癌组织和癌旁正常组织有较好区分度。CAT,ESR1和KLKB1基因的表达与患者病理分期存在显著相关性(P<0.05)。免疫表型分析结果表明,这些免疫相关基因的表达与肝癌患者中多种免疫细胞浸润存在显著相关性(P<0.05)。3.6个特征性免疫相关基因在肝癌组织与正常组织、癌旁组织中表达存在显著差异,MMP9在肝癌组织中显著上调,而其余5个基因在癌组织中显著下调。生存分析结果显示,高表达MMP9与低表达ESR1,和HCC患者较差的预后显著相关(Log-rank P<0.001),而其他基因对患者预后无显著性影响。多因素Cox回归分析结果显示,MMP9和ESR1是HCC患者预后的独立预测因子(P<0.001),MMP9为危险因子,ESR1为保护因子。预后模型采用Cox回归分析构建并以列线图形式可视化,C-Index为0.650(0.611-0.690)。校准曲线显示,基于模型预测的1,-,3-,5-年OS与患者实际OS基本一致,表明模型效能较好。DCA结果显示约15%到95%的患者可以从该模型中获益。TIDE得分结果提示高表达ESR1,低表达MMP9的肝癌患者更容易从免疫治疗中获益。4.24对癌组织及配对癌旁组织石蜡切片的免疫组化结果表明,MMP9在癌组织中表达上调,其余5个基因在癌组织中表达下调。Transwell、细胞划痕、CCK-8、克隆形成及流式细胞术等实验结果表明ESR1敲减后的肝癌细胞侵袭能力、增殖能力明显增强,凋亡减弱。结论在肝细胞癌患者中,CAT,ESR1,KLKB1基因表达与患者临床分期显著相关;MMP9,ESR1基因是影响患者预后的独立风险因素。高表达MMP9,低表达ESR1与肝癌患者预后不佳显著相关。高表达ESR1,低表达MMP9的肝癌患者更容易从免疫治疗中获益。体外细胞实验证实,ESR1敲减后肝癌细胞(HepG2,Hep3B)的增殖侵袭能力显著增加,凋亡减弱,提示其可能是肝癌治疗的有效潜在靶点。