论文部分内容阅读
目的基于网络数据库中胃癌和癌旁组织的RNA测序数据及临床特征数据,运用系统生物学方法联合机器学习算法进行生物信息学分析,筛选出胃癌预后长链非编码RNA(long noncoding RNA,lncRNA)分子标志物,为研究胃癌发生发展的分子学机制提供参考。方法1从癌症基因组图谱官网下载胃癌和癌旁组织RNA测序数据及临床特征数据,提取lncRNA数据并进行标准化处理,运用“edge R”函数包筛选胃癌差异表达lncRNA,采用加权基因共表达网络分析(Weighted Gene Correlation Network Analysis,WGCNA)鉴定与胃癌总体生存时间相关的lncRNA模块。2运用最小化绝对收缩和选择算子(Least Absolute Shrinkage and Selection Operator,LASSO)算法对模块内lncRNA构建胃癌预后lncRNA模型,绘制受试者工作特征曲线(Receiver Operating Characteristic,ROC)并计算曲线下面积(Area Under Curve,AUC)评价模型。根据模型计算胃癌和癌旁样本对应的风险评分,据风险评分中位值将胃癌分为高风险组和低风险组,利用Kaplan-Meier法进行生存分析评估模型预测胃癌预后的能力。对模型内lncRNA绘制单基因ROC曲线并计算AUC,识别出胃癌预后关键lncRNA分子,并运用生存分析加以验证。通过star Base数据库、Mutil Experiment Matrix(MEM)数据库进行胃癌预后关键lncRNA分子靶基因的预测。结果1本研究纳入345例胃癌及32例癌旁组织的RNA测序数据及临床特征数据,筛选出3301个胃癌差异表达lncRNA,其中有2439个lncRNA表达上调,862个lncRNA表达下调;对差异表达lncRNA运用WGCNA构建加权基因共表达网络,划分成17个模块,与胃癌总体生存时间显著相关的是绿色模块。2运用LASSO算法对绿色模块内100个lncRNA进行特征提取,筛选出11个lncRNA构建胃癌预后lncRNA模型;模型生存分析结果表明,高风险组中位生存时间短于低风险组,模型的AUC为0.641,提示模型预测性能良好。计算模型内单个lncRNA的AUC,结果发现LINC00665的AUC值最大,为0.695,提示LINC00665可有效独立预测胃癌预后;生存分析发现LINC00665划分的胃癌高低表达组在生存时间上具有差异(P=0.007),差异具有统计学意义,可作为胃癌预后可能分子标志物。运用star Base数据库、MEM数据库进行靶基因预测分析,发现HKR1可能是LINC00665的靶基因,相关性分析发现LINC00665与HKR1在胃癌中具有明显相关性(r=0.401,P=6.93e-16)。结论1基于TCGA联合WGCNA鉴定出包含100个lncRNA的胃癌预后lncRNA模块,为筛选胃癌预后相关lncRNA分子标志物提供数据支持。2基于LASSO算法筛选出LINC00665可能是胃癌预后lncRNA分子标志物,可能通过调控靶基因HKR1影响胃癌的发生发展过程。图18幅;表4个;参135篇。