论文部分内容阅读
结直肠癌是威胁人类健康的主要癌症之一。从全世界范围看,我国为结直肠癌低发地区,但发病率呈上升趋势,尤其是结肠癌的发病率迅速上升。因此,对结直肠癌患者的生存率预测以及影响其预后的因素的探究显得格外重要。
癌症的治疗旨在克服肿瘤细胞生长的失控及其浸润和转移,要预测及准确评估抗癌治疗的效果,必须寻找能预测及评估治疗反应的标志物。
本文针对结直肠癌病患的数据缺失率大、变量之间交互作用复杂等特征,提出了随机生存森林模型,对数据集进行预后分析。通过随机生存森林模型对结直肠癌数据做特征选择,将影响预后的因素提取出来,以供医学分析及验证。
同时,由于随机生存森林中每棵树的分类结果是将样本归类到以其生存分布最相近的类别中,并给出其累积危险函数。故当袋外数据进入森林时,可通过期望平均计算其累积危险函数,进而预测该袋外数据的生存函数,并根据袋外数据预测的结果,计算该随机生存森林模型的误差率。
通过实验,可得到随机生存森林模型的误差率当树木达500棵以上时,其误差率趋于稳定,保持在0.18左右,若在原始数据中改善其缺失值的填补方式,采用K近邻方法先进行数据预处理,再放入随机生存森林模型中进行分析,其误差率可低至0.15,即其正确率高达85%,且正确率稳定在85%左右。
同时,将随机生存森林模型比Cox回归模型做比较,可发现的Cox回归模型误差率为0.25左右,相比之下,随机生存森林的优势显而易见。
随着该技术的不断改进和日益普及.相信必将推动包括结直肠癌在内的肿瘤的发生发展、早期诊断、治疗和预后判断等研究的快速发展。