基于Super learner的结直肠癌预后预测研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:a932632391
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
结直肠癌是危害人类健康的常见恶性肿瘤之一,其所造成的的疾病负担正在不断增加。在中国男性人群中结直肠癌发病率位居第三位,死亡率居第二位;而在女性人群中,其发病率与死亡率均位居第三位。实践证明,准确判断结直肠癌患者预后及其影响因素,进而及时调整治疗干预方案,是降低其死亡率和疾病负担的有效策略。然而,目前临床上判断结直肠癌预后往往仅基于TNM分期(包括肿瘤病理浸润深度、区域淋巴结转移数目及是否远处转移等),凭借医生经验进行评判,其评估准确性通常不高。为了提高预后预测准确性,增加预后判断的客观性,国内外已有研究在TNM分期的基础上增加其他常见的预后相关指标,采用常规的单一疾病预测模型(如Weibull回归、Cox比例风险回归模型、基于机器学习的随机生存森林模型等)构建结直肠癌预后预测模型。然而,单一预测模型各有其局限性,针对不同人群、不同预测变量的情形时,其预测效果差异很大,必然严重影响模型外推预测的准确性。  为了提高结直肠癌预后预测的准确性和外推泛化能力,本研究在新近发展的Super learner理论方法框架下,组合运用Cox比例风险模型、随机生存森林、加法风险模型、Weibull回归模型、指数回归模型、对数正态回归模型、对数logistic回归模型及基于条件推理树的随机森林共八种预测方法,构建新一代的结直肠癌预后预测模型。首先,通过理论模拟系统比较Super learner与8个传统单一预测模型在不同类型数据中的预测准确性和精确性。然后,利用来自不同种族、不同地区真实世界研究的6个结直肠癌预后队列,分别建立了基于Super learner的组合预测模型和8个单一预测模型,并进行了实效性比较和验证。  研究结果:  1.统计模拟结果显示,在数据结构相对简单和预测变量数目较少的模拟情境下,Super learner预测效果较好,其判别准确性(C-index)均值为0.715,而校准能力(O/E)的综合评价指标|1-O/E|均值为0.069。Super learner组合预测模型表现出校准能力(O/E)接近1的稳健校准能力;而其它单一预测模型在不同结构的外推预测集中表现出校准能力(O/E)不稳健的状态。  2.在不同真实世界研究的6组结直肠癌预后队列组合中,Super learner组合预测模型均表现出较为稳健的预测效果,具有稳定的外推泛化能力;而其它单一预测模型在不同分布特征的结直肠癌预后队列中,表现不稳健,预测能力的一致性较差。具体表现为:  (1)在第一组队列(本课题组构建的结直肠癌预后队列为训练集,TCGA-COADREAD队列为验证集)中,C-index依次为对数正态回归模型(0.819)、对数logistic回归模型(0.815)、Super learner(0.813),位居第三位;O/E比依次为Cox比例风险模型(1.086)、指数回归模型(1.087)、Weibull回归模型(1.088)、随机条件推理森林(1.111)、Super learner(1.113),位居第五位。  (2)在第二组队列(“survival”包里的结肠癌预后队列作为训练集,本课题组构建的结直肠癌预后队列为验证集)中,C-index依次为加法风险模型(0.819)、对数正态回归模型(0.730)、对数logistic回归模型(0.729)、Weibull回归模型(0.727)、指数回归模型(0.727)、Super learner(0.723),位居第六位;O/E比依次为随机条件推理森林(1.213)、Weibull回归模型(1.216)、指数回归模型(1.235)、加法风险模型(1.252)、对数正态回归模型(1.269),对数logistic回归模型(1.277)、Super learner(1.292),位居第七位。  (3)在第三组队列(本课题组构建的结直肠癌预后队列为训练集,TCGA-COADREAD队列为验证集)中,C-index依次为Super learner(0.816)、对数正态回归模型(0.816),位居第一位;O/E比依次为Weibull回归模型(1.053)、对数logistic回归模型(1.054)、指数回归模型(1.054)、随机条件推理森林(1.070)、对数正态回归模型(1.071)、Super learner(1.077),位居第六位。  (4)在第四组队列(GEO数据库中下载的GSE40967数据作为训练集,GSE41258数据作为验证集)中,C-index依次为随机条件推理森林(0.822)、加法风险模型(0.820)、Super learner(0.818),位居第三位;O/E比依次为随机生存森林(0.929)、随机条件推理森林(0.886)、Super learner(0.878),位居第三位。  (5)在第五组队列(GEO数据库中下载的GSE40967数据作为训练集,TCGA-COAD数据作为验证集)中,C-index依次为加法风险模型(0.790)、Super learner(0.820),位居第二位;O/E比依次为随机条件推理森林(0.981)、Cox比例风险模型(0.980)、随机生存森林(0.979)、加法风险模型(0.975)、Super learner(0.973),位居第五位。  (6)在第六组队列(本课题组构建的结肠癌预后队列为训练集,GEO数据库中下载的GSE40967数据作为验证集)中,C-index依次为随机条件推理森林(0.733)、Super learner(0.725),位居第二位;O/E比依次为对数正态回归模型(0.998),Super learner(0.990),位居第二位。  (7)对预测模型在六组队列组合中的预测效果进行综合评价,在内部验证中,C-index均值依次为随机生存森林(0.929)、随机条件推理森林(0.800)、Super learner(0.795),位居第三位;校准能力(O/E)的综合评价指标|1-O/E|依次为随机条件推理森林(0.041)、随机生存森林(0.042)、加法风险模型(0.042)、Super learner(0.046),位居第四位。在外部验证中,Super learner的C-index均值0.780,位居第一位;校准能力(O/E)的综合评价指标|1-O/E|为随机生存森林(0.079)、Weibull回归模型(0.081)、指数回归模型(0.083)、加法风险模型(0.071)、Super learner(0.092),位居第五位。  研究结论:  1.在数据结构相对简单和预测变量数目较少的模拟情境下,Super learner预测效果较好。  2.在较为复杂的真实世界结直肠癌预后队列中,单一预测模型表现较不稳定,其预测准确性呈忽高忽低的趋势;而Super learner组合预测模型无论在何种情况下均表现出较为稳健的预测效果,外推泛化能力稳定。  3.基于Super learner组合预测策略的结直肠癌预后预测模型,具备稳健性强、准确性高以及外推泛化能力强的优良特征,为临床结直肠癌预后预测提供了新方法。
其他文献
有人走进了我的屋子,一下子遮蔽了门口的大部分光线.我有点诧异,不等我开口,一个着长衫、头缠黑丝帕的高个子老人,边走近边喊“贤侄” “贤侄”.我更加诧异,觉得“贤侄”一词
期刊
法国作家让·热内在其名著《贾科梅蒂的画室》中充满激情地写道:“美源于伤痛.每个人都带着特殊的、各自不同的伤痛,或隐或现,所有人都将其守在心中.当他想离开这个世界或独
期刊
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
一rn第一次听说“东流”这个地名,便觉得好.四海君在航道站工作,在文中常写到“东流”,因为在江上检查航标灯,经常路过或夜宿东流镇.他感慨:“县治所在地的‘东流’已经从它
期刊
一rn我妈在电话里哭.rn已经好几次了,我一看,是她的电话心里就揪紧.直觉告诉我,有事,肯定又是闹心的事.果然,电话一通,哭声就抢先抵达了.“你爸骂我,骂得很难听.”我一愣,不
期刊
期刊
一rn不知不觉,便酒至半酣.rn我突然发现,时间原来是凝固的、不变的.rn它并不是我们所想象的那样,如一条长河,在不停地向前流动.rn它是一个巨大的图书馆或一本不知从哪里开头
期刊
阅读巴音博罗的诗歌,最突出的感受就是其中所包含的强烈情感.虽然我们也可以说巴音博罗的诗歌有着鲜明的、高识别度的个人节奏,但这一节奏在他的诗歌中不是一种外在的装饰,而
期刊
“创新是一个民族进步的灵魂,是国家兴旺发达的不竭动力.一个没有创新能力的民族,难以屹立于世界先进民族之林.”自主创新离不开学术交流,这是中外科学技术发展史充分证明了
我们的英语教学不能总是以分数为导向,进而追求片面化的教学模式.我们应尽量减少当今社会浮躁与急功近利之风气对英语教学的不利影响,使其回归到正确而有序的轨道上来.英语是