论文部分内容阅读
研究背景:肝细胞癌(HCC)是全球范围内最常见的恶性肿瘤之一,由于HCC早期症状不明显,很多患者一经发现已经处于HCC晚期阶段,失去手术治疗的机会,因此探索新的HCC诊疗策略极为迫切。在我们先前的研究中发现,伴随着肝炎、肝硬化等慢性肝病背景下的肝脏不典型增生结节(DN)具有一定的癌变风险。因此我们首次提出一个新的概念肝癌癌前疾病(Pre-HCC),包括低级别不典型增生结节(LGDN)和高级别不典型增生结节(HGDN)。其中,相比于LGDN,HGDN具有更高的HCC发病率而被认为是高风险的Pre-HCC。但是,高风险Pre-HCC恶变过程中的关键基因和潜在的调控通路尚不明确。研究目的:本研究应用GEO、TCGA、ICGC数据库进行生物信息学分析,旨在(1)通过生物信息学方法筛选高风险Pre-HCC与HCC的差异表达基因,探究高风险Pre-HCC恶性转换的关键基因与潜在的分子调控机制。(2)根据差异表达基因构建HCC生存预测模型并评估其效能,分析生存预测模型与临床特征的关系,探究生存预测模型与肿瘤微环境的相关性。方法:(1)通过GEO数据库获得GSE89377、GSE6764芯片数据,应用R语言包“limma”对基因数据进行差异表达分析,获得高风险Pre-HCC和HCC之间的差异表达基因。使用R语言包“cluster Profiler(version 3.14.3)”对筛选出的差异表达基因进行GO和KEGG基因功能富集分析。(2)在STRING数据库中构建差异表达基因的蛋白质-蛋白质互作网络图谱(PPI),应用Cytoscape3.7.2软件中cytoHubba插件,得到前10个显著差异表达的基因。通过TCGA数据库下载365个肝癌患者的基因数据及临床数据作为训练集,对前10个基因进行单因素和多因素分析,使用R软件包glmnet,用lasso-cox方法构建最优肝癌生存预测模型。(3)依据生存预测模型将TCGA肝癌患者分为高危组、低危组,使用R软件包“survival”绘制K-M生存曲线和ROC曲线评估肝癌生存预测模型的预测价值。(4)我们还分析了 TCGA肝癌患者的临床特征与肝癌生存预测模型的相关性。同时应用ICGC数据库中的235个肝癌患者作为验证集对肝癌生存预测模型进行外部验证。(5)此外,我们计算TCGA肝癌患者中22种免疫细胞和2种基质细胞的细胞评分用以分析高低危两组的肿瘤微环境差异。(6)我们通过 GSEA 网站获得了 GSEA 软件,并从 Molecular Signatures Database下载了 KEGG通路集合,阐明了高危组和低危组的通路整体变化。结果:(1)从GSE89377、GSE6764两组数据集筛选出高风险Pre-HCC和HCC共同差异表达基因268个(57个上调基因,211个下调基因)。GO、KEGG基因功能富集结果表明,差异基因与细胞外结构、多种催化酶活性、多种代谢过程(如脂质代谢、氨基酸代谢等)、补体凝血级联通路、PPAR信号通路、细胞周期和DNA复制密切相关。(2)通过 cytoHubba 分析,AURKA、AURKB、NUSAP1、MELK、CCNB2、PRC1、TOP2A、PTTG1、UBE2C、NCAPG是高风险Pre-HCC和HCC之间的前10个显著表达基因并均是影响肝癌不良预后的危险因素,Lasso-cox回归分析最终获得了 4个基因构建的模型:(Risk Score=-0.3852*NUSAP1+0.2149*MELK+0.1346*PTTG1+0.5585*NCAPG)(3)依据模型的风险评分将肝癌患者分成高危组和低危组,Kaplan-Meier生存曲线显示高危患者具有更差的预后,且组间具有显著生存差异(p=5.4e-7)。同时ROC分析结果显示,生存预测模型预测1、2、3、5年总体生存率的AUC(95%置信区间)分别为0.76(0.83-0.69)、0.74(0.80-0.67)、0.71(0.79-0.64)、0.70(0.79-0.61),说明该模型对预测HCC患者早期生存具有较好的预测能力。(4)单因素和多因素分析结果表明:越差的肿瘤结节状态、越晚的肿瘤分期、BMI降低、AFP升高、高风险分数与肝癌的不良预后相关(P<0.05)。而性别、年龄、病理分级、Child分级、纤维化分级与肝癌预后无关。(5)在验证集中生存分析显示高危组总体生存率明显低于低危组(p=3.4e-5),生存预测模型预测1、2、3年总体生存率的AUC(95%置信区间)分别为0.70(0.84-0.57)、0.72(0.82-0.62)、0.70(0.81-0.59),说明在验证集中,该模型对预测HCC患者早期生存也具有较好的预测能力。(6)另外肿瘤微环境分析显示,风险分数与记忆B细胞、滤泡辅助T细胞、调节性T细胞(Treg)、巨噬细胞MO评分呈正相关,相关系数分别为0.17、0.33、0.16、0.30;而与幼稚B细胞、静息CD4记忆T细胞、单核细胞、巨噬细胞M1型、内皮细胞、成纤维细胞评分呈负相关,相关系数分别为-0.25、-0.21、-0.19、-0.10、-0.26、-0.10。(7)为了进一步探讨分子通路与HCC患者预后之间的关系,我们采用GSEA分析来评估高低危两组中通路的整体变化趋势。与低危组相比,高危组中p53信号通路、细胞周期、DNA复制相关的通路表达显著增高,而胆汁酸代谢、脂肪酸代谢、补体与凝血级联、药物代谢细胞色素P450和PPAR信号通路显著降低。结论:根据生物信息学分析结果,NUSAP1、MELK、PTTG1、NCAPG是高风险Pre-HCC恶性转变的潜在关键基因,是肝癌不良预后的危险因素。我们利用Lasso-cox回归模型建立了一个四基因的肝癌生存预后预测模型,同时内部验证和外部验证结果均表明模型对预测HCC早期生存情况具有良好的预测能力。此外,肿瘤微环境中多种细胞间相互作用失衡可影响肝癌患者预后。这些研究结果为Pre-HCC的临床和基础研究提供新的思路和研究基础,具有重要意义。