论文部分内容阅读
目的:通过构建决策树(Decision Tree,DT)模型对女性乳腺癌5年内生存状况进行预测,为临床医生预测乳腺癌患者的预后和调整个体化的随访策略提供参考。方法:本研究对2010年1月至2014年10月确诊的405例乳腺癌患者的生存状况进行了随访,确定了患者自确诊乳腺癌后5年内的生存状况(生存或死亡),并记录了与乳腺癌预后可能相关的17种因素。通过多种模型筛选,最后选择DT的回归树算法(Classification and Regression Tree,CART)构建了预测模型,在参数调整后,对这405例患者进行了10折交叉验证(cross validation,CV)的训练及测试。最后通过受试者特征(Receiver Operating Characteristic Curve,ROC)曲线、Precision–Recall(PR)曲线、学习曲线、校正曲线对模型性能进行了评估。结果:经过计算,决策树模型在十倍交叉验证中获得了理想的结果:平均召回率=0.91,标准差=0.05。而预测结果验证了结果和模型的稳定性:召回率=0.88,准确率=0.92,F1值=0.86,真阳性率(True Positive rate,TPR)=0.88。ROC的曲线下面积(Area under curve,AUC)达到0.91,PR曲线中平均AUC为0.882。学习曲线表明该模型呈过度拟合状态。校准曲线则表明该模型主要表现过度自信即低估了死亡风险。在这17项特征中,病理分期,分子分型,肿瘤大小,HER-2等因素在我们的预测过程中显示出明显的相关性和重要性。结论:研究表明,我们的决策树模型在预测女性乳腺癌患者5年内生存状况方面具有一定的准确性和稳定性,尤其保证了高度死亡风险患者的召回率,这一结果可以对临床医生预测患者的预后和调整个体化随访策略提供一定的参考。