论文部分内容阅读
胃癌(gastric cancer,GC)是人类消化系统恶性肿瘤中最常见的类型,是导致癌症患者死亡的主要原因。早期胃癌患者预后状态较好,5年总体生存率约为90%以上,但是一些胃癌患者在初次就诊时即为疾病的晚期阶段,这部分患者的预后情况较差。因此,筛选胃癌预后关键生物分子标志物,构建能够高效预测胃癌患者预后状态的多分子模型显得尤为重要。非编码RNAs(non coding RNAs,ncRNAs),一类无蛋白质编码能力的基因组转录产物,大量研究结果显示,ncRNAs在肿瘤的发生发展及预后评估中发挥着非常关键的作用,但ncRNAs标志物及其模型在胃癌的预后预测方面尚未见系统报道。本课题探讨了 ncRNAs在胃癌预后诊断方面的应用价值,通过生物信息学手段及大数据分析,筛选与胃癌患者总体生存率存在关联性的ncRNAs生物标志物,构建多分子模型用于预后风险评估。课题设计主要分为以下两个部分:(一)胃癌miRNAs预后风险评分模型的构建:目的:筛选与胃癌患者总体生存率存在关联性的微小RNAs(miRNAs)生物标志物,构建风险评分模型,并使用该模型预测患者的预后状态。方法:首先从人类癌症和肿瘤基因图谱(TCGA)公共数据库获取胃癌miRNAs表达谱数据,使用“DESeq2”软件包对miRNAs数据进行分析,筛选差异表达的miRNAs分子。下载TCGA数据库储存的胃癌患者随访信息等,使用R语言整合数据,采用单因素Cox回归和Kaplan-Meier生存分析筛选与胃癌患者预后存在关联性的miRNAs,并将预后miRNAs纳入多因素Cox回归分析用于预后风险评分模型的构建。通过“timeROC”软件包绘制受试者工作特征曲线(ROC),对模型效能进行评价。最后使用数据库对miRNAs可能结合的信使RNAs(mRNAs)进行预测,并通过GO、KEGG预测其功能。结果:以|log2 Fold Change |>1,P-Value<0.05为标准,筛选得到胃癌组织中差异表达的miRNAs 248个。使用单因素Cox回归以及Kaplan-Meier分析,共识别到6个与患者总体生存期有关联性的差异表达的miRNAs,随后使用多因素Cox回归分析成功构建胃癌miRNAs预后风险评分模型,风险评分=0.04835×miR-181b-1+0.11206×miR-548d-1+0.06800×miR-675+0.07587×miR-708+1.17521 ×miR-4640+0.08989×miR-4709。随后Kaplan-Meier分析结果显示,风险评分高的患者预后较差(P<0.001);模型5年总体生存率ROC曲线结果显示,ROC曲线下面积(AUC)为0.776,证明该模型能够有效预测胃癌患者预后风险。GO和KEGG功能富集分析显示,模型miRNAs分子参与多个肿瘤相关代谢通路。结论:运用生物信息学分析,成功构建了 6-miRNAs风险评分模型,用于患者预后风险评估;采用Kaplan-Meier及ROC曲线对模型的预测效能进行评估,提示该模型能够高效的预测胃癌患者的生存状态。(二)胃癌组织中差异表达的lncRNAs及其预后评估模型的构建:目的:筛选胃癌lncRNAs(long non-coding RNAs,lncRNAs)差异表达谱,鉴定lncRNAs预后生物标志物,并构建风险评分模型,用于胃癌患者生存状态评估。方法:首先从TCGA癌症基因组数据库下载获得胃癌RNAs表达谱数据及样本对应的相关临床信息,通过“DESeq2”包对RNAs表达谱进行差异分析。采用单因素Cox回归和Kaplan-Meier生存分析对差异分子进行筛选,确定与预后存在关联性的lncRNAs。使用计算机随机数字将患者随机均等的分入两个分组,即训练组和验证组。在模型构建阶段,使用训练组患者的数据,进行多因素Cox回归分析,构建预后风险评分模型,通过“timeROC”软件包绘制ROC曲线,对模型效能进行评价。随后使用验证组和全部患者数据对模型进行验证。CeRNA网络和GO、KEGG分析用于预测目标lncRNAs的潜在机制和功能。最后,通过实时定量聚合酶链式反应(Quantitative real-time polymerase chain reaction,qRT-PCR)对LINC01929的表达水平进行验证,实时细胞检测分析仪和迁移侵袭等体外实验验证LINC01929的生物学功能。结果:在胃癌组织中,共发现表达水平异常的lncRNAs 847个、miRNAs 64个、mRNAs 1472 个(|log2 Fold Change|>2,adjusted P-Value<0.01)。其中 78 个lnc RNAs与胃癌的总体生存率存在关联性。在训练集中成功构建了 10-lncRNAs胃癌预后风险评分模型。ROC曲线显示模型具有良好的诊断效能,3年、5年总体生存率ROC曲线下面积AUC分别为0.878、0.808。验证集和总体数据集中的验证结果证实,模型能有效预测患者的生存状态。对模型分子功能的预测结果显示,lncRNAs与miRNAs、mRNAs构成ceRNA网络,发挥生物学功能。而GO和KEGG结果显示,这些mRNAs涉及P53、TGF-β等信号通路以及代谢过程等众多GO terms。敲低LINC01929可以降低HGC27细胞的增殖、侵袭和迁移能力。结论:通过生物信息学分析筛选了胃癌预后相关lncRNAs生物标志物,并成功构建了10-lncRNAs胃癌预后风险评分模型,对患者生存状态具有良好的预测效能。