论文部分内容阅读
目的鼻咽癌(nasopharyngeal carcinoma,NPC)缺乏早期诊断的生物标志物,许多鼻咽癌患者在被诊断时已经处于鼻咽癌的晚期。因此,有必要为鼻咽癌识别候选生物标志物,从而找到有效的诊断指标并制定更好的治疗策略。方法在GEO(Gene Expression Omnibus)基因表达综合数据库中,下载了关于鼻咽癌的3个微阵列数据集GSE12452,GSE53819和GSE64634,并使用R 3.6.0软件识别出了差异表达基因(Differentially Expressed Genes,DEGs)。在此基础上,对这些差异表达基因进行GO(Gene Ontology)分析、KEGG(Kyoto Encyclopedia of Genes and Genomes)富集分析、差异基因火山图和热图的绘制。通过STRING在线网站构建差异基因的蛋白互作(Protein-Protein Interaction,PPI)网络,并使用Cytoscape 3.7.1软件进行后续网络模块的分析及确定枢纽基因(hub gene)。此外,对筛选出来的枢纽基因绘制受试者工作特征曲线(the Receiver Operating Characteristic curve,ROC),根据ROC曲线下面积的大小(Area under the curve,AUC)来判断其诊断价值。结果纳入的3个微阵列数据集(GSE12452,GSE53819和GSE64634)包含61例鼻咽癌样本及32例健康对照样本。在这3个微阵列数据集中识别出了836个差异表达基因,其中包括349个上调基因和487个下调基因。用STRING在线网站结合Cytoscape3.7.1软件中的MCODE工具识别出了4个重要的基因模块。根据Cytoscape 3.7.1软件中的cytohubba工具在这4个基因模块中,鉴别出六个枢纽基因(CDK1,CCNB1,CCNB2,CCNA2,BUB1B和KIF11)。ROC曲线显示这六个基因作为联合诊断指标的AUC值是0.958,95%CI:0.926-0.973,灵敏度值为0.951,特异度值为0.813,表明这6个基因具有良好的诊断价值。结论基于生物信息学分析,我们鉴别出6个枢纽基因(CDK1,CCNB1,CCNB2,CCNA2,BUB1B和KIF11),其可作为鼻咽癌诊断的潜在生物标志物。但是还需要进一步的研究来证实该6个基因在NPC发生发展中的作用及其与NPC临床指标间的关系。目的我们旨在使用人类癌症基因组图谱(The Cancer Genome Atlas,TCGA)数据库构建一个预测头颈部鳞状细胞癌(head and neck squamous cell carcinoma,HNSCC)预后的多基因预测模型,并分析多基因预测模型与HNSCC临床病理特征之间的关系。方法TCGA数据库里含有502名HNSCC患者的转录组数据。我们将502例患者按照固定的比例随机分为训练集(70%,N=352)和测试集(30%,N=150)。通过R 3.6.0软件在HNSCC组织样本和癌旁正常组织样本中识别出差异表达基因(DEGs)。通过单因素Cox回归筛选出与患者预后相关的DEGs,并根据Lasso回归及多元Cox回归构建多基因预测模型。每位HNSCC患者是根据已构建的预测模型计算其预后风险得分,训练集中352例HNSCC患者的中位风险得分作为临界值,高于此临界值的HNSCC患者被分为高风险组,低于临界值的则分为低风险组,用R 3.6.0软件分别绘制训练集的生存曲线及ROC曲线,并在测试集中予以验证。然后将这502例HNSCC患者的临床信息(主要是年龄、性别、饮酒史、吸烟史、肿瘤分期、HPV状态、放射治疗、总生存-OS及无复发生存-RFS)结合风险得分做单因素和多因素COX回归分析,探讨其预后的影响因素。最后根据卡方检验和Kaplan-Meier(KM)方法分别探索多基因预测模型风险得分与HNSCC患者临床病理特征的关系及评价多基因预测模型在各亚组HNSCC患者预后中的预测效果。结果经过差异表达分析之后识别出1842个DEGs,通过单因素COX回归和Lasso回归最终选择了18个DEGs以构建多基因预测模型。在训练集和测试集中,生存曲线均有统计学意义(P<0.05),在训练集中ROC曲线中的AUC值为0.816,在测试集中AUC值为0.724。单因素和多因素Cox回归分析均显示HNSCC患者预后的影响因素包含预测模型风险得分、病理分期和放射治疗。卡方检验显示预测模型风险得分与HNSCC患者的年龄、病理分期及HPV状态相关。此外,在各亚组中预后风险得分为低风险组患者的总生存率、无复发生存率整体高于高风险组(P<0.05)。这进一步提示多基因预测模型预测能力较好。结论基于生物信息学分析,我们的研究有望为HNSCC提供新的见解。在临床特征和治疗基础上,本研究构建的十八个基因的预测模型可能有利于指导HNSCC患者的临床个体化治疗和促进预后。