论文部分内容阅读
目的:胃癌是消化道最常见的恶性肿瘤,我国胃癌发病率及死亡率显著高于其他国家,严重威胁人类健康。由于早期胃癌无特异性改变,大多数患者在发现时已经处于进展期。手术、辅助放化疗的快速发展在一定程度上提高了胃癌患者的生存期,但由于化学药物抗性等原因胃癌患者的5年生存率低于30%。因此寻找预测胃癌患者预后及治疗效果的生物标志物显得尤为重要。长链非编码RNA(long non-coding RNA,lncRNA)是一类转录本长度超过200个核苷酸大小的RNA,因开放阅读框序列的部分或全部缺失而不具备蛋白质编码能力。但近年来的研究表明,lncRNA具有广泛的生物学功能,在肿瘤发生发展过程中扮演着重要的作用,可以调控肿瘤细胞的增殖、分化、侵袭以及转移等多种生物学过程,有望成为肿瘤诊断及预后新的生物标志物和潜在的治疗靶点。目前尚没有特异性的指标来预测胃癌患者的预后,但在人体的组织及体液中均可检测到lncRNA的表达,具有组织和细胞特异性,而且lncRNA的种类繁多,但其功能及作用机制尚不清楚。本文旨在通过生物信息学方法筛选胃癌与癌旁组织中差异表达的lncRNA,构建基于lncRNA的胃癌预后风险模型,同时进一步筛选与胃癌预后有关的lncRNA,为后续实验的开展提供研究方向和理论依据。方法:基于人类肿瘤基因组数据库即TCGA(The Cancer Genome Atlas,TCGA)数据库下载关于胃癌的转录组测序数据及胃癌患者详细的临床资料,从转录组测序数据中提取长链非编码RNA数据的表达矩阵;以校正后的P<0.05且差异表达倍数>4(FDR<0.05且|logFC|>2)设定为阈值,利用R语言中的“edgeR”包筛选在胃癌及癌旁组织中差异表达的lncRNA,将lncRNA的表达数据与下载的生存资料进行合并,根据设定的P值通过单因素Cox回归分析筛选与胃癌患者预后有关的lncRNA;通过R语言中的“glmnet”包和“survival”包进行LASSO(Least Absolute Shrinkage and Selection Operator,LASSO)回归分析以减少数据的过度拟合,以最小的λ值作为最佳参考值,筛选与预后更关键的lncRNA。最后通过多因素Cox回归分析建立与胃癌预后相关lncRNA模型。以计算的风险评分的中位数作为临界值,将患者分为高风险组和低风险组。采用受试者工作特征(receiver operating characteristic,ROC)曲线评估该模型在3年和5年生存期的预测能力,计算C指数对预后模型进一步评价,通过Kaplan-Meier(K-M)生存分析绘制高低风险组的生存曲线。对Cox多因素回归分析中有统计学差异的lncRNA进行K-M生存分析以确定预后的生物标志物。结果:(1)本研究基于TCGA数据库共筛选得到1272个差异性表达的lncRNA,包括上调的lncRNA 1051个,下调的lncRNA 221个;(2)对1272个差异性表达的lncRNA进行单因素Cox回归分析,以P<0.05为筛选标准共得到68个差异性表达的lncRNA与胃癌患者的预后有关;(3)进一步通过LASSO回归分析结果显示,最终得到25个与胃癌患者的预后更相关的lncRNA(P<0.05);(4)将LASSO回归分析中得到的25个lncRNA进行多因素Cox回归分析,提取每个lncRNA的表达量数据与回归系数,构建基于25个lncRNA的胃癌预后风险模型,同时计算每一个样本的风险值,根据中位数将患者分为高、低风险两组。K-M生存曲线结果显示高风险组患者的预后较差(P<0.01),ROC曲线结果显示3年生存率和5年生存率的曲线下面积分别为0.804和0.79,C指数为0.73,表明该模型具有较好的预测能力;(5)将得到的25个差异性表达的lncRNA进行多因素回归分析结果显示有4个差异性表达的lncRNA具有统计学意义(P<0.05),进一步行生存分析结果显示,只有lncRNAAL109615.2与胃癌患者的预后相关。结论:基于TCGA数据库,我们成功构建了基于25个lncRNA表达水平的胃癌预后模型,预测效能较好。我们还确定了lncRNAAL109615.2可作为胃癌患者不良预后的生物标志物。