【摘 要】
:
目的机器学习在医学领域中的应用愈发广泛,随机生存森林(random survival forest,RSF)作为随机森林在生存分析中的扩展,是机器学习中最具代表性的算法之一。本研究旨在比较随机生存森林与传统Cox比例风险回归在构建非转移性结直肠腺癌预后模型中的表现,并对比随机生存森林与Lasso的变量筛选能力,择优进行变量选择并构建预测模型,评估临床应用价值。方法本研究数据来源于美国国立癌症研究所
论文部分内容阅读
目的机器学习在医学领域中的应用愈发广泛,随机生存森林(random survival forest,RSF)作为随机森林在生存分析中的扩展,是机器学习中最具代表性的算法之一。本研究旨在比较随机生存森林与传统Cox比例风险回归在构建非转移性结直肠腺癌预后模型中的表现,并对比随机生存森林与Lasso的变量筛选能力,择优进行变量选择并构建预测模型,评估临床应用价值。方法本研究数据来源于美国国立癌症研究所SEER(The Surveillance,Epidemiology,and End Results)数据库,选取“Incidence-SEER18 Custom Data(with additional treatment fields),Nov 2018 Sub(1975-2016 varying)”中的数据,共纳入 2010-2011 年所有行手术治疗并经病理确诊的首发且无远处转移的结直肠腺癌患者共13866例。使用Kaplan-Meier法进行单因素分析,符合条件者纳入后续模型构建。分别基于随机生存森林与Cox比例风险回归构建预后模型,并对比二者的袋外错误率(out of bag error rate)与综合Brier分数(integrated Brierscore),择优作为最终建模方法。依据随机生存森林的给出的变量重要性排序以向后选择法逐步剔除变量并构建Cox回归模型,以Lasso压缩各个自变量回归系数至其减小为0被剔除模型的顺序再次逐步构建模型,并与前者对比,择优作为变量选择方法。在不明显影响模型性能的基础上选择重要性较高的变量构建最终模型,并绘制列线图,预测患者1年、3年、5年的生存率。最后进行模型的内外验证,采用时间依赖的受试者工作曲线(time-dependent receiver operating characteristic curve,tdROC)与校准图(Calibrationplot)评价模型性能及泛化能力,评估临床使用价值。结果经筛选后最终纳入13866例患者进行研究,其中死亡4385例,中位随访时间为70个月,单因素分析除性别无显著意义外其余变量均纳入后续模型构建。研究发现在非转移性结直肠腺癌中Cox 比例风险回归模型比随机生存森林的袋外错误率更低、综合Brier分数更小,具有更高的区分度与准确度,预测性能更优。另外,随机生存森林给出的变量重要性排序较Lasso压缩回归系数得到的更为简明准确,依次为年龄、淋巴结转移率(lymphnode ratio,LNR)、T 分期、癌胚抗原(carcinoembryonic antigen,CEA)、癌结节(tumor deposit,TD)、化疗、婚姻状态、神经浸润(perineural invasion,PNI)、病理类型、肿瘤分化、种族、肿瘤大小、肿瘤部位。在不明显影响模型性能的前提下基于随机生存森林进行变量选择后纳入年龄、淋巴结转移率、T分期、癌胚抗原、癌结节、婚姻状态、化疗等7个变量构建了 Cox回归模型,并通过列线图可视化模型,内部验证显示tdROC曲线下面积(areaundercurve,AUC)在1年、3年、5年分别为0.793、0.769、0.753,相应校准图表现良好,Brier分数分别为0.055,0.125,0.169。外部验证中AUC在1年、3年、5年分别为0.82、0.789、0.766,相应校准图曲线同样表现良好,Brier分数分别为0.045、0.127、0.177。结合内外验证,模型预测能力稳定可靠,具有很好的泛化能力。结论1.尽管以随机生存森林为代表的机器学习模型在众多领域得到广泛应用并表现良好,但在非转移性结直肠腺癌预后模型构建中Cox比例风险回归优于随机生存森林。2.随机生存森林可简明准确地衡量各变量对模型的贡献度,淋巴结转移率、癌结节、婚姻状态、癌胚抗原对患者预后具有较大价值,特别是淋巴结转移率表现出超越T分期的预后价值,值得进一步研究。3.我们基于随机生存森林进行变量选择后纳入年龄、淋巴结转移率、T分期、癌胚抗原、癌结节、婚姻状态、化疗情况等变量,在非转移性结直肠腺癌中构建了 Cox比例风险回归模型,并绘制了相应预后列线图,在内外数据中表现良好,具有一定的临床应用价值。
其他文献
镉是一种普遍存在的环境污染物,主要通过消化道和呼吸道进入机体,代谢缓慢,生物半衰期长。蓄积在体内的镉可对多种组织器官造成毒性损伤,肾脏是镉毒性作用的主要靶器官,肾小管是损伤的主要靶位点。长期镉暴露可以引起肾小管重吸收功能障碍,最终发生肾衰竭。褪黑素是松果体受昼夜节律调节而分泌的一种内源性激素,具有抗氧化、抗炎、抗凋亡等多种生物学活性,因其副作用小,已在临床上应用于心血管疾病、糖尿病和神经内分泌相关
H9N2亚型低致病性禽流感病毒(Avian influenza virus,AIV)不仅对家禽存在一定的致病性,而且已有报道表明H9N2亚型AIV可跨种感染人类,同时也可作为一些新型流感病毒的基因供体,具有引发流感大流行的潜力。PA-X蛋白作为PA基因核糖体移码产生的新型蛋白,目前认为是H9N2亚型AIV的毒力因子,而且与宿主天然免疫调控密切相关。树突状细胞(Dendritic cells,DCs
研究背景与目的:脊柱关节炎(Spondyloarthritis,SpA)是一组慢性自身炎症性疾病,以中轴关节受累为主要特征,可伴发外周关节炎及关节外表现,晚期可发生脊柱畸形和关节强直,严重影响患者生活质量,疾病活动度的衡量对于评估SpA病情及判断疗效都至关重要。目前临床上评估SpA疾病活动度及疗效的方法包括巴斯强直性脊柱炎疾病活动性指数(Bath Ankylosing Spondylitis Di
鸡传染性贫血病是由鸡传染性贫血病毒(Chicken infectious anemia virus,CIAV)引起,以雏鸡再生障碍性贫血以及全身性淋巴组织萎缩为特征的免疫抑制病。该病分布于全球,是阻碍禽类养殖业发展的重要免疫抑制病之一。CIAV的基因组只有约2.3kb,共编码三个蛋白。VP1作为其唯一的衣壳蛋白,在CIAV诱导宿主产生中和抗体的过程中具有关键性作用。VP2被认为是VP1的一种辅助蛋
当前信息时代,每天涌现出大量的信息数据,这些海量信息的存储及处理需要更高效的计算存储单元。随着电子设备的快速更新,传统信息存储设备已经接近摩尔定律的极限,急需新的替代品来解决这一挑战。面对这一挑战,电阻式随机存储器(RRAM)以其高的存储密度、快速的读写速度、低功耗等优势吸引了众多研究者的关注。但是其运行参数一致性差的问题制约RRAM器件进一步应用,成为目前面临的主要问题之一。同时,阻变存储器具有
猪圆环病毒2型(porcine circovirustype 2,PCV2)是仔猪断奶后多系统衰竭综合征(postweaning multisystemic wasting syndrome,PMWS)的主要病原体,对全世界养猪业造成了严重的经济损失。本研究对PCV2感染48 h的PK-15细胞进行无标记的定量蛋白质组质谱(LFQR-MS)分析。组学结果显示,与健康细胞相比,PCV2感染细胞中差异
玉米赤霉烯酮(zearalenone,ZEA)主要产生于禾谷镰刀菌,是一种具有非甾体类雌激素活性的霉菌毒素,其污染范围遍布全世界,对人类和动物的健康构成极大的威胁。ZEA可对动物生殖系统、免疫系统及内分泌系统等造成损伤。近来年有许多关于ZEA对动物造成免疫抑制的相关报道,但其具体作用机制尚未完全探明,尤其对于在体液免疫应答中发挥重要作用的B淋巴细胞影响的研究较少。为了探究ZEA的免疫毒性作用机理,
目的 探讨静音磁共振血管成像(ZTE-MRA)整合杂合ASL(hASL)标记策略,并用于评估颅内动脉疾病的临床可行性。材料与方法本研究纳入经临床怀疑或已证实的67例脑血管病患者,分别在3.0T场强下进行基于cASL/hASL标记和静音读出的MRA图像采集。分别评估两种MRA检查的采集噪声(声强测量、主观评分)。三名神经放射学专家采用双盲、随机法分别对两种MRA图像中的颅内动脉各节段(包括两侧颈内动
新城疫(Newcastle disease,ND)是由新城疫病毒(Newcastlediseasevirus,NDV)强毒株引起的禽类高度接触性传染病,被公认为是除高致病性禽流感外对全球养禽业危害最为严重的禽类疾病。近年来NDV分子流行病学数据显示,我国鸡群和水禽中NDV主要的流行基因型为基因Ⅶ型。2014年针对ND基因Ⅶ型的灭活疫苗A-Ⅶ问世,使得我国基因Ⅶ型NDV的流行得到了有力控制。但由于灭
非洲猪瘟病毒(African swine fever virus,ASFV)是一种带囊膜的双股DNA病毒。非洲猪瘟(African swine fever,ASF)典型症状为高热、出血、厌食、腹泻、便秘和皮肤发绀等。最新报道表明,ASFV已发展为临床症状不明显的自然变异株,其致死率高,流行速度快,防控困难。ASFV基因组庞大,免疫逃避机制复杂,研究ASFV编码蛋白参与感染免疫的相关分子机制,将为疫