论文部分内容阅读
目的:非小细胞肺癌在全球范围内有着高发病率、高死亡率和预后差等特点。手术治疗仍然是治疗非小细胞肺癌的首选方式,选择正确的手术治疗方式可以有效改善患者预后情况。但是目前在临床中,对非小细胞肺癌患者手术治疗方案的选择多依据肿瘤分期、病理类型、发病部位以及医生本人对患者身体情况的评估等,涉及到的影响术式选择的因素十分有限且各个医生的经验水平也参差不齐。因此本研究建立一个性能优异的术式决策模型,对非小细胞肺癌患者适合的手术治疗方案进行预测,并且输出相应的5年生存状态,供临床医生参考并制定更加全面合理的综合治疗方案。研究方法:从SEER数据库中下载随访时间满5年的非小细胞肺癌患者数据集。依据AJCC临床指南、NCCN临床指南以及CS肿瘤协作在线帮助系统等领域专家知识对数据进行预处理。其中,手术类型作为非小细胞肺癌患者手术治疗方案决策模型的结局变量,共分为4种手术类型,分别为:肺(小于一个肺叶)切除术、肺叶切除术、全肺切除术以及原发部位未手术;生存时间作为非小细胞肺癌患者5年生存状态预测模型的结局变量,分为生存(生存时间大于等于60个月)和死亡(生存时间小于60个月)两种状态。将预处理后的数据集按照7:3分为训练集和测试集,在训练集中通过十折交叉验证分别确定获得最高准确率和最高F值的欠采样比例,并按照两种不同的欠采样比例各进行8次随机抽样,针对每一个欠采样训练子集都训练一个人工神经网络模型,并进行参数调优,然后通过遍历所有组合的方法确定用于集成学习的基分类器。将最终得到的术式决策模型与其他机器学习分类算法进行比较,模型评价指标有准确率、F值以及AUC值。而非小细胞肺癌患者5年生存状态预测模型则采用极端梯度提升算法进行建模。结果:数据集中共有9586条记录,其中,结局变量“手术类型”内四种术式的不平衡比例为1.58:9.31:1:1.03;另一个结局变量“生存时间”中生存和死亡的比例为4.96:1。最终所建立的非小细胞肺癌患者手术治疗方案决策模型的准确率为76.63%,F值为0.60,AUC为0.72,各项评价指标均高于朴素贝叶斯、k近邻、支持向量机、人工神经网络、随机森林以及极端梯度提升等机器学习算法。此外,非小细胞肺癌患者5年生存状态预测模型也有着较高的准确率和AUC值,分别为83.22%和0.72。结论:本研究所采用的“不同欠采样比例+人工神经网络模型调参+集成学习”的混合建模算法既很好解决了多分类不平衡数据问题,又提升了模型的综合性能和泛化能力。最终模型不但可以预测最为适合患者的手术方式,还可以预测采用该术式的5年生存状态,有助于临床医生进行综合判断,促进医疗资源的合理分配,有效提升患者生存状态,具有一定的临床应用价值。