论文部分内容阅读
目的:根据多组细胞数据,寻找一个基因标记来预测卵巢癌患者的预后。方法:从TCGA 数据库下载RNA-Seq SNP、CNV 数据和临床随访信息,并将其随机分为训练组和测试组。GEO 中的GSE17260 数据集作为外部验证集,预后相关基因、拷贝数差异基因和突变基因在训练集中进行筛选。基因整合后,进一步采用随机森林的特征选择算法,最终获得可靠的生物标志物。在此基础上,在试验集和验证集中建立与基因相关的预后模型并验证模型。结果:获得2097 个预后相关基因、447 个复印扩增基因、1069 个拷贝缺失基因和6