论文部分内容阅读
结直肠癌是危害人类健康的常见恶性肿瘤之一,其所造成的的疾病负担正在不断增加。在中国男性人群中结直肠癌发病率位居第三位,死亡率居第二位;而在女性人群中,其发病率与死亡率均位居第三位。实践证明,准确判断结直肠癌患者预后及其影响因素,进而及时调整治疗干预方案,是降低其死亡率和疾病负担的有效策略。然而,目前临床上判断结直肠癌预后往往仅基于TNM分期(包括肿瘤病理浸润深度、区域淋巴结转移数目及是否远处转移等),凭借医生经验进行评判,其评估准确性通常不高。为了提高预后预测准确性,增加预后判断的客观性,国内外已有研究在TNM分期的基础上增加其他常见的预后相关指标,采用常规的单一疾病预测模型(如Weibull回归、Cox比例风险回归模型、基于机器学习的随机生存森林模型等)构建结直肠癌预后预测模型。然而,单一预测模型各有其局限性,针对不同人群、不同预测变量的情形时,其预测效果差异很大,必然严重影响模型外推预测的准确性。 为了提高结直肠癌预后预测的准确性和外推泛化能力,本研究在新近发展的Super learner理论方法框架下,组合运用Cox比例风险模型、随机生存森林、加法风险模型、Weibull回归模型、指数回归模型、对数正态回归模型、对数logistic回归模型及基于条件推理树的随机森林共八种预测方法,构建新一代的结直肠癌预后预测模型。首先,通过理论模拟系统比较Super learner与8个传统单一预测模型在不同类型数据中的预测准确性和精确性。然后,利用来自不同种族、不同地区真实世界研究的6个结直肠癌预后队列,分别建立了基于Super learner的组合预测模型和8个单一预测模型,并进行了实效性比较和验证。 研究结果: 1.统计模拟结果显示,在数据结构相对简单和预测变量数目较少的模拟情境下,Super learner预测效果较好,其判别准确性(C-index)均值为0.715,而校准能力(O/E)的综合评价指标|1-O/E|均值为0.069。Super learner组合预测模型表现出校准能力(O/E)接近1的稳健校准能力;而其它单一预测模型在不同结构的外推预测集中表现出校准能力(O/E)不稳健的状态。 2.在不同真实世界研究的6组结直肠癌预后队列组合中,Super learner组合预测模型均表现出较为稳健的预测效果,具有稳定的外推泛化能力;而其它单一预测模型在不同分布特征的结直肠癌预后队列中,表现不稳健,预测能力的一致性较差。具体表现为: (1)在第一组队列(本课题组构建的结直肠癌预后队列为训练集,TCGA-COADREAD队列为验证集)中,C-index依次为对数正态回归模型(0.819)、对数logistic回归模型(0.815)、Super learner(0.813),位居第三位;O/E比依次为Cox比例风险模型(1.086)、指数回归模型(1.087)、Weibull回归模型(1.088)、随机条件推理森林(1.111)、Super learner(1.113),位居第五位。 (2)在第二组队列(“survival”包里的结肠癌预后队列作为训练集,本课题组构建的结直肠癌预后队列为验证集)中,C-index依次为加法风险模型(0.819)、对数正态回归模型(0.730)、对数logistic回归模型(0.729)、Weibull回归模型(0.727)、指数回归模型(0.727)、Super learner(0.723),位居第六位;O/E比依次为随机条件推理森林(1.213)、Weibull回归模型(1.216)、指数回归模型(1.235)、加法风险模型(1.252)、对数正态回归模型(1.269),对数logistic回归模型(1.277)、Super learner(1.292),位居第七位。 (3)在第三组队列(本课题组构建的结直肠癌预后队列为训练集,TCGA-COADREAD队列为验证集)中,C-index依次为Super learner(0.816)、对数正态回归模型(0.816),位居第一位;O/E比依次为Weibull回归模型(1.053)、对数logistic回归模型(1.054)、指数回归模型(1.054)、随机条件推理森林(1.070)、对数正态回归模型(1.071)、Super learner(1.077),位居第六位。 (4)在第四组队列(GEO数据库中下载的GSE40967数据作为训练集,GSE41258数据作为验证集)中,C-index依次为随机条件推理森林(0.822)、加法风险模型(0.820)、Super learner(0.818),位居第三位;O/E比依次为随机生存森林(0.929)、随机条件推理森林(0.886)、Super learner(0.878),位居第三位。 (5)在第五组队列(GEO数据库中下载的GSE40967数据作为训练集,TCGA-COAD数据作为验证集)中,C-index依次为加法风险模型(0.790)、Super learner(0.820),位居第二位;O/E比依次为随机条件推理森林(0.981)、Cox比例风险模型(0.980)、随机生存森林(0.979)、加法风险模型(0.975)、Super learner(0.973),位居第五位。 (6)在第六组队列(本课题组构建的结肠癌预后队列为训练集,GEO数据库中下载的GSE40967数据作为验证集)中,C-index依次为随机条件推理森林(0.733)、Super learner(0.725),位居第二位;O/E比依次为对数正态回归模型(0.998),Super learner(0.990),位居第二位。 (7)对预测模型在六组队列组合中的预测效果进行综合评价,在内部验证中,C-index均值依次为随机生存森林(0.929)、随机条件推理森林(0.800)、Super learner(0.795),位居第三位;校准能力(O/E)的综合评价指标|1-O/E|依次为随机条件推理森林(0.041)、随机生存森林(0.042)、加法风险模型(0.042)、Super learner(0.046),位居第四位。在外部验证中,Super learner的C-index均值0.780,位居第一位;校准能力(O/E)的综合评价指标|1-O/E|为随机生存森林(0.079)、Weibull回归模型(0.081)、指数回归模型(0.083)、加法风险模型(0.071)、Super learner(0.092),位居第五位。 研究结论: 1.在数据结构相对简单和预测变量数目较少的模拟情境下,Super learner预测效果较好。 2.在较为复杂的真实世界结直肠癌预后队列中,单一预测模型表现较不稳定,其预测准确性呈忽高忽低的趋势;而Super learner组合预测模型无论在何种情况下均表现出较为稳健的预测效果,外推泛化能力稳定。 3.基于Super learner组合预测策略的结直肠癌预后预测模型,具备稳健性强、准确性高以及外推泛化能力强的优良特征,为临床结直肠癌预后预测提供了新方法。