论文部分内容阅读
研究背景据估计,全球2020年新发结直肠癌病例超过190万例,死亡93.5万人,约占癌症病例和死亡人数的十分之一,结直肠癌发病率在所有恶性肿瘤中排名第三,死亡率在所有恶性肿瘤中排名第二。肝转移是最常见结直肠癌的远处转移,29%-40%的结直肠癌患者发生肝转移,结直肠癌肝转移的治疗包括手术治疗、化疗、射频消融及放疗。有大量结直肠癌肝转移生存预后的临床预测模型被开发,但是其中只有不到1/4的临床预测模型得到了外部验证,其结果外推性有待提高。既往开发的结直肠癌肝转移生存预后模型结果显示结直肠癌肝转移患者的生存预后与肝转移灶数目、肿瘤标志物(CEA、CA19-9)水平、原发灶淋巴结转移情况、肝转移灶大小、是否存在肝外转移、原发灶位置、肿瘤分化程度、肝切除术切缘、肝转移灶治疗、肿瘤分期、KRAS突变、肝转移灶分布、年龄等众多因素有关。影响晚期结直肠癌预后的中医相关因素包括中医证型、中医治则、中医治疗时间等因素。现阶段基于缺乏亚裔人群大样本数据开发经过外部验证的临床预测模型,目前结直肠癌肝转移生存预后的临床预测模型中也没有纳入中医临床因素,直接影响了临床预后判断。本研究意在解决以下三个问题:是否可以基于SEER数据库建立大样本亚裔结直肠癌肝转移生存预后模型;该预测模型应用于我院结直肠癌肝转移患者预测能力如何;是否可以基于中医院病历数据建立纳入中医临床因素的结直肠癌肝转移生存预后模型?研究目的本研究旨在开发基于SEER数据库建立大样本亚裔结直肠癌肝转移生存预后模型并加以外部验证;评价预测模型对中医院住院治疗的结直肠癌肝转移患者的预测能力;尝试基于中医院病历数据开发具有更好预测能力的、纳入中医临床因素的结直肠癌肝转移生存预后模型。研究方法研究一:采取回顾性研究方法,筛选2010年-2015年在SEER数据库中登记的亚裔结直肠癌肝转移患者,将纳入患者按7:3比例随机分为训练集和内部验证集。筛选2010年1月1日至2015年12月31日于中国中医科学院广安门医院肿瘤科住院治疗的结直肠癌肝转移患者作为外部验证集。提取患者信息:①人口统计学资料:性别、确诊时年龄;②肿瘤情况:原发灶位置、分化程度、原发灶淋巴结转移、TNM分期(AJCC 6th edition);③治疗信息:原发灶治疗情况;④肿瘤标志物:CEA;⑤随访信息:生存时间,生存情况。使用SPSS 25.0软件对相关因素进行单因素生存分析,将其中影响生存预后的重要因素及临床上有意义的其他因素进行综合,挑选纳入预测模型开发的影响因子。使用R软件对纳入模型开发的影响因子进行多因素Cox回归,并根据结果建立列线图临床预测模型,并对模型进行优化。利用训练集对预测模型区分度及校准度进行评价,利用内部验证集和外部验证集对预测模型的区分度及校准度进行验证,评价预测模型对中医院住院治疗的结直肠癌肝转移患者的预测能力。研究二:采取回顾性研究方法,筛选2010年1月1日至2015年12月31日于中国中医科学院广安门医院肿瘤科住院治疗的结直肠癌肝转移患者作为训练集。提取患者信息:①列线图模型中涉及的相关数据;②中医四诊资料:舌象、脉象;③中医证候;④中医治疗相关信息;⑤随访信息:生存时间,生存情况。对研究一中模型纳入的相关因素及中医因素进行单因素生存分析,选取对预后有显著影响的因素及其他临床上有意义的因素进行综合纳入预测模型开发。使用R软件对纳入模型开发的影响因子进行多因素Cox回归,并根据结果建立列线图临床预测模型。如有必要,对模型进行优化。利用训练集对预测模型区分度及校准度进行评价,因本研究患者人数较少,不进行内部验证;因中医相关数据难以在公开数据库中获取,也不进行外部验证。研究结果研究一:纳入2010年-2015年在SEER数据库登记的亚裔结直肠癌肝转移患者共988名,将纳入患者随机按照7:3的比例分为训练集和验证集,训练集692人,验证集296人。纳入2010年-2015年在中国中医科学院广安门医院肿瘤科住院患者共71名,作为外部验证集。利用SPSS软件进行单因素生存分析,Log-rank分析结果显示年龄、性别、原发灶位置、T分期、N分期、原发灶手术、肝外转移、分化程度是影响预后的重要因素(P<0.05);进行多因素Cox回归分析,结果显示年龄、原发灶位置、T分期、原发灶手术、肝外转移及分化程度是患者生存预后的独立影响因素(P<0.05)。选取独立危险因素和综述中出现频次较高的淋巴结转移情况相关的N分期,利用R软件基于训练集建立CRLM患者生存预后的1年生存率、2年生存率、3年生存率的列线图临床预测模型;模型建立后发现,N分期在此模型中所占比例很低,而增加因素可能增加模型对于训练集的过度拟合,遂将N分期从预测模型中去除。本预测模型最终纳入年龄、原发灶位置、T分期、原发灶手术、肝外转移及分化程度等6个因素;提示T分期中T2分期、80岁以上、未行原发灶手术、肿瘤分化程度为未分化、原发灶位于右半结肠、存在肝外转移的患者预后差。区分度即预测模型将高风险个体与低风险个体进行区分的能力,校准度是衡量预测模型的预测值与患者实际生存情况一致性的指标。对构建好的预测模型进行了区分度、校准度评价,其中C-index为0.649,预测1年生存情况的ROC曲线的AUC为0.692、预测2年生存情况的ROC曲线的AUC为0.695,预测3年生存情况的ROC曲线的AU C为0.754,结合校准图,说明本预测模型具有接近中等程度的预测区分度和校准度。将开发的预测模型应用于内部验证集和外部验证集,对预测模型进行了区分度、校准度验证。其中内部验证预测1年生存情况的ROC曲线的AUC=0.676,预测2年生存情况的ROC曲线AUC=0.642,预测3年生存情况的ROC曲线AUC=0.721,结合校准图进行分析,说明本预测模型在内部验证中具有接近中等程度的预测区分度,但预测3年生存情况的校准度稍低。利用外部验证队列对预测1年生存情况、2年生存情况进行验证,其中1年生存情况的ROC曲线AUC=0.671,预测2年生存情况的ROC曲线AUC=0.68,结合校准图进行分析,说明本预测模型在外部验证中具有接近中等程度的预测区分度,预测1年、2年生存情况的校准度稍低,但实际值仍在预测值可信区间内部,说明本预测模型外推性得到了验证。在线列线图模型地址:https://drwang2021.shinyapps.io/dynno mapp/研究二:使用回顾性方法纳入了 2010年-2015年于中国中医科学院广安门医院肿瘤科住院的71例CRLM患者。对患者临床资料及中医相关因素进行单因素生存分析,Lo g-rank分析结果显示年龄、原发灶手术、肝外转移、肿瘤分化程度、CEA及中医治疗时间是影响预后的重要因素(P<0.05),而原发灶位置、T分期及中医证型、舌色、舌苔、脉象等均对生存预后没有显著影响(P>0.05)。分析中医证型与患者生存预后的关系,生存分析提示各中医证型的生存预后没有显著差异,但其中肝郁脾虚证、湿热内蕴证患者1年生存率相对较差。将研究1中模型纳入的6个预测因子年龄、原发灶位置、原发灶手术、肝外转移、肿瘤分化程度、T分期和CEA、中医治疗时间纳入多因素Cox回归分析。发现手术治疗、中医治疗、CEA、肿瘤分化情况是CRLM的独立保护因素,其中中医治疗时间<6个月的患者相比,进行中医治疗时间≥6个月的患者死亡风险降低,H R=0.367(95%CI 0.197-0.681)。根据每个变量对应10个以上事件的原则,本研究只能纳入最多7个变量,根据多因素回归结果,去除P值最大的变量原发灶位置。根据年龄、原发灶手术、肝外转移、分化程度、T分期、CEA、中医治疗时间7个变量进行1年生存率、2年生存率的列线图模型构建。使用C-index和ROC曲线对模型区分度进行评价,使用校准图对模型校准度进行评价。C-index为0.80,1年生存率预测AUC=0.848,2年生存率预测AUC=0.906,校准图预测直线与实际直线相差很大,此模型存在过度拟合可能性,因本研究样本较小,通过减少变量的方法优化预测模型。将预测因子肝外转移从预测模型中剔除,建立由年龄、原发灶手术、分化程度、T分期、CEA、中医治疗时间6个变量组成的临床预测模型。使用C-index和ROC曲线对模型区分度进行评价,使用校准图对模型校准度进行评价,C-index为0.80,1年生存率预测AUC=0.814,2年生存率预测AUC=0.848;校准图预测直线与实际直线很接近,提示本预测模型对1年、2生存率的预测能力较好。与研究一中建立的预测模型对比,本研究建立的预测模型可以更好地预测本研究纳入CRLM患者的生存预后。在线列线图模型地址:https://drwang2020.shinyapps.io/dvnnomapp/研究结论1.基于SEER数据库建立了包括年龄、原发灶位置、T分期、原发灶手术、肝外转移及分化程度等6个因素的结直肠癌肝转移患者生存预后的列线图预测模型;提示T2分期、80岁以上、未行原发灶手术治疗、肿瘤分化程度为未分化癌或不详、存在肝外转移的右半结肠癌肝转移患者预后较差。经过内部验证和外部验证,该预测模型内部预测能力中等,对中医院住院治疗的结直肠癌肝转移患者的预测能力欠佳。2.在基于SEER数据库开发的列线图模型的基础上,针对该模型预测中医院住院治疗的结直肠癌肝转移患者生存预后的能力欠佳,分析中国中医科学院广安门医院肿瘤科住院的结直肠癌肝转移病人病历资料,开发了由年龄、原发灶手术、分化程度、T分期、CEA、中医治疗时间6个变量构成的列线图模型。提示年龄小于50岁、肿瘤分化程度为未分化癌、未行手术、T3分期、服用中药时间<6个月、CEA 阳性的CRLM患者预后较差。与研究一中模型年龄、原发灶等因子不一致可能与两队列年龄、原发灶位置分布情况不一致有关。该纳入中医相关因素的临床预测模型对于预测本研究纳入CRLM患者生存预后有较好的预测能力,且比基于SEER数据库大样本开发的预测模型具有更好的预测能力。