论文部分内容阅读
目的:弥漫性大B细胞淋巴瘤(diffuse large B-cell lymphoma,DLBCL)是B细胞非霍奇金淋巴瘤中一种常见的侵袭性恶性肿瘤。虽然利妥昔单抗联合标准化学治疗的临床方案进一步提高了患者的总体生存率,但仍有30%-50%的病人出现耐药或在病情缓解后复发并最终死亡。此外,受疾病分期、肿瘤分型、治疗方案等因素的影响,病人的预后存在明显差异。现有研究大多关注的是DLBCL群体水平,如患者预后因素的分析、总体生存率的估计、药物评价等。基于病人的临床病理特征,在个体水平上对患者进行预测的研究较少,特别是风险(概率)的预测。准确的风险预测可以帮助临床医生针对个性化患者制定最佳的治疗方案,改善病人的生存状态,延长他们的生存时间,是实现精准医疗的重要途径。针对上述问题,本研究试图将概率校准应用于集成方法中,构建性能优良的DLBCL死亡风险(概率)预测模型,为医生决策和病人治疗提供参考。方法:研究资料来源于2010-2017年某医院确诊的406例DLBCL的电子病历记录。本研究综合Cox比例风险回归模型、logistic回归模型以及随机森林特征重要性分析结果,筛选风险模型的预测因子。本研究选择5个具有良好分类性能的分类器作为集成方法中的基模型,包括:朴素贝叶斯(NB)、logistic回归(LR)、随机森林(RF)、支持向量机(SVM)和前馈神经网络(FNN)模型。本研究选择普适性较好的RPR(shape-restricted polynomial regression)作为本文的概率校准方法。首先使用RPR对基模型进行概率校准,并与经典校准方法Platt(Platt scaling)和Iso Reg(isotonic regression)的结果进行比较。然后使用3种集成策略(stacking方法、加权平均法和简单平均法)组合RPR校准后的基模型,获得最终的风险预测模型。最后使用300轮留出法测试的平均结果评估模型性能。模型评价基于区分度和校准度,本文使用AUC(the area under the ROC curve)评价模型的区分性能(即分类能力),使用HL(Hosmer-Lemeshow)拟合优度检验、期望校准误差(expected calibration error,ECE)和最大校准误差(maximum calibration error,MCE)评价模型的校准性能(即概率预测的准确性)。结果:患者的性别、肿瘤分期、国际预后指数值(international prognostic index,IPI)、卡式状态评分值(Karnofsky performance status,KPS)和是否使用利妥昔单抗(rituximab)是DLBCL患者两年内死亡的重要影响因素。对于5个基模型,LR模型(ECE=9.517,MCE=24.400,P=0.226)和FNN模型(ECE=9.211,MCE=23.500,P=0.329)具有良好的校准性能,无论哪一种概率校准方法都没有进一步降低它们的概率预测误差。NB模型(ECE=14.206,MCE=38.900,P<0.001)、RF模型(ECE=13.569,MCE=36.000,P<0.001)和SVM模型(ECE=13.225,MCE=32.100,P=0.014)初始概率预测的误差较大,概率校准能够显著降低它们的预测误差,且RPR校准效果最优(NB-RPR:ECE=9.514,MCE=23.800,P=0.257;RF-RPR:ECE=10.070,MCE=26.550,P=0.198;SVM-RPR:ECE=10.893,MCE=26.300,P=0.140)。对于集成模型,无论使用何种集成策略(stacking方法、加权平均法、简单平均法),基模型经过概率校准的集成模型性能(Stacking-EN-C:ECE=8.983,MCE=21.265,P=0.350;ECE-EN-C:ECE=9.027,MCE=22.350,P=0.351;MCE-EN-C:ECE=9.159,MCE=22.300,P=0.345;SA-EN-C:ECE=9.295,MCE=23.300,P=0.314)优于基模型未经概率校准的集成模型(StackingEN:ECE=9.866,MCE=24.850,P=0.225;ECE-EN:ECE=9.228,MCE=24.500,P=0.186;MCE-EN:ECE=9.317,MCE=24.200,P=0.204;SA-EN:ECE=9.695,MCE=26.100,P=0.130)。在本文构建的28个模型中,通过RPR校准基模型的stacking异质集成模型(Stacking-EN-C)在区分度和校准度上均最优(AUC=0.820,ECE=8.983,MCE=21.265,P=0.350)。结论:针对集成方法的基模型在概率预测任务中可能无法产生准确概率估计的问题,本文将概率校准应用于集成方法中,以期产生更优越的集成效果,获得更精确的概率预测。结果显示,与基模型未经校准的集成模型相比,引入概率校准可以进一步降低集成模型的概率预测误差。本研究基于概率校准和集成方法构建的DLBCL风险预测模型达到了预期效果,对辅助医生决策和病人治疗具有重要意义。同时,本文应用的建模策略或许可以在以后的工作中被加以考虑。