随机生存森林在结直肠癌预后分析的应用

来源 :中山大学 | 被引量 : 0次 | 上传用户:revire
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
结直肠癌是威胁人类健康的主要癌症之一。从全世界范围看,我国为结直肠癌低发地区,但发病率呈上升趋势,尤其是结肠癌的发病率迅速上升。因此,对结直肠癌患者的生存率预测以及影响其预后的因素的探究显得格外重要。   癌症的治疗旨在克服肿瘤细胞生长的失控及其浸润和转移,要预测及准确评估抗癌治疗的效果,必须寻找能预测及评估治疗反应的标志物。   本文针对结直肠癌病患的数据缺失率大、变量之间交互作用复杂等特征,提出了随机生存森林模型,对数据集进行预后分析。通过随机生存森林模型对结直肠癌数据做特征选择,将影响预后的因素提取出来,以供医学分析及验证。   同时,由于随机生存森林中每棵树的分类结果是将样本归类到以其生存分布最相近的类别中,并给出其累积危险函数。故当袋外数据进入森林时,可通过期望平均计算其累积危险函数,进而预测该袋外数据的生存函数,并根据袋外数据预测的结果,计算该随机生存森林模型的误差率。   通过实验,可得到随机生存森林模型的误差率当树木达500棵以上时,其误差率趋于稳定,保持在0.18左右,若在原始数据中改善其缺失值的填补方式,采用K近邻方法先进行数据预处理,再放入随机生存森林模型中进行分析,其误差率可低至0.15,即其正确率高达85%,且正确率稳定在85%左右。   同时,将随机生存森林模型比Cox回归模型做比较,可发现的Cox回归模型误差率为0.25左右,相比之下,随机生存森林的优势显而易见。   随着该技术的不断改进和日益普及.相信必将推动包括结直肠癌在内的肿瘤的发生发展、早期诊断、治疗和预后判断等研究的快速发展。  
其他文献
本文利用亚纯函数值分布理论,研究了p次迭代级亚纯函数与整函数的级与型以及系数为[p, q]级整函数时,线性微分方程解的增长性.全文共分三章.  第一章:介绍了亚纯函数与整函
本文研宄肿瘤生长模型的自由边界问题,主要研宄该类问题稳态解的存在性及分歧现象.全文共分为三章.  在第一章中,我们介绍本文研宄问题的已有相关研宄,以及我们的主要研宄结果
本文主要研究图染色过程中关于r-hued染色问题,拓展已有文献中的一些结果.借助归纳讨论方法、反证法、极小反例方法从不同角度研究图2—hued,3—hued,4—hued染色问题,其中包
本文我们主要研究了两类脉冲微分方程的概周期型解,全文共分为三章,具体包括如下内容:  在第一章中,我们介绍了研究背景,给出了相关的预备知识并且证明了一些引理。  在第
图的Wiener指数是拓扑指数,是一个基于距离的分子图的拓扑不变量,在数学化学领域有广泛应用.本文主要研究蒲公英图和双星图的Wiener指数逆区间问题.  第一部分介绍了Wiener指
随着数字技术的普及,医学成像技术已成为现代医疗的一个重要手段。为了更有效的利用医学图像信息,图像分割技术逐渐深入到医学领域。医学图像分割作为医学图像处理的一个重要
任何一种软件在投入使用之前必须进行大量的测试来保证该软件的可靠性。变异测试作为一种面向缺陷检测的测试方法,既可以用来生成高质量的测试数据,又可以用于评价已有测试数