论文部分内容阅读
目的:构建长链非编码RNA(long non-coding RNA,LncRNA)表达特征的乳腺癌患者预后的预测模型。方法:分析癌症基因组图谱(the cancer genome atlas,TCGA)数据库1 081例乳腺癌患者的转录组测序数据中LncRNA表达图谱及临床特征,对TCGA数据库中112对配对的乳腺癌及正常乳腺组织的转录组测序数据进行差异表达分析和单因素分析筛选得到差异表达且与乳腺癌患者预后显著相关的LncRNA(DELncRNA),利用DEseq2包进行差异表达分析(为减弱批次效应,测序数据已用DESeq函数标准化)。1 081例乳腺癌患者被分成两组:训练集(541例)和验证集(540例)。将DELncRNA纳入Cox比例风险回归模型,在训练集中筛选和建立多LncRNA预后模型并对模型进行比例风险假定检验(proportional hazards assumption,PH假定检验),计算多基因风险评分,并基于此将患者分为高风险组和低风险组,采用Kaplan-Meier方法进行生存分析,并用验证集540例患者的数据进行验证。评价该模型在TCGA数据库肺鳞癌和肝细胞肝癌等患者中的预后评估价值。基因集富集分析(gene set enrichment analysis,GSEA)分析LncRNA影响患者生存的具体机制。结果:转录组测序分析筛选得到2 815个差异表达基因,其中与乳腺癌患者预后显著相关的LncRNA共91个(n P<0.05)。利用541例训练集乳腺癌患者的91个DELncRNA表达数据进行Cox回归分析,构建了基于5个LncRNA的Cox比例风险回归模型(训练集AUC=0.746,验证集AUC=0.650):AC004551.1、MTOR-AS1、KCNAB1-AS2、FAM230G和LINC01283,并进行PH假定检验(n P=0.388)。K-M生存分析发现,训练集中高风险组的生存明显差于低风险组(中位生存时间:7.049年与12.21年,n HR 0.367,95%n CI 0.228~0.597,n P<0.001),在验证集中高风险组患者生存时间也明显短于低风险组(中位生存时间:7.57年与10.85年,n HR 0.412,95%n CI 0.214~0.793,n P<0.001)。在TCGA其他癌种中也得到相似的预测结果:肺鳞癌(n HR 0.604,95%n CI 0.383~0.951,n P=0.007)及肝细胞肝癌(n HR 0.551,95%n CI 0.307~0.987,n P=0.011)。GSEA结果提示,上述5个LncRNA的表达模式与肿瘤细胞的细胞周期调控有关。n 结论:基于AC004551.1、MTOR-AS1、KCNAB1-AS2、FAM230G和LINC01283表达谱构建的预后模型可用于预测乳腺癌患者的预后,有利于进一步指导临床治疗。