论文部分内容阅读
结直肠癌(CRC)是一种常见的消化道恶性肿瘤,发病率与死亡率均呈逐年上升趋势,已然成为影响人类健康的重要疾病。目前CRC的主要治疗手段为外科手术,但术后仍有一定比例的复发转移风险,且复发转移将严重影响患者预后,故是否能准确预测患者术后结局,采取适当措施就显得尤为重要。国内外已有研究对CRC术后转移风险及结局进行预测,主要采用多因素Logistic回归和COX回归,但这2种方法对样本量要求较高,不宜分析小样本高维数据。近年兴起的机器学习算法,如基于统计学习理论的支持向量机学习算法(SVM)、随机森林算法(RF)则适用于小样本、高维数据的分类问题,可以得到具有较好泛化能力的预测模型。预测模型结合特征选择算法,在降低空间冗余度的同时,还可以降低训练成本。其中Boruta算法通过衡量特征对结局的重要性进行选择,可避免变量之间的相关性,对医学数据较为适用,但目前尚未应用于恶性肿瘤数据的预测。本研究分为两部分,第一部分利用UCI标准数据集进行模拟预测,运用SPSS 22.0软件进行单因素差异性分析,R 3.30进行Boruta特征选择,随后建立SVM模型和RF模型,运用Stata14.0对模型预测效果进行比较,尝试筛选出较优的特征选择方式,第二部分针对抽样采集的CRC预后相关数据,对第一部分筛选得到的模型进行验证,并对CRC术后不良结局进行预测。研究结果显示:(1)针对UCI标准数据集的分类预测结果显示,基于全数据集的RF预测模型(AUC=0.717)效果较好;基于差异性分析的预测效果较好的是Polynomial-SVM模型(AUC=0.756);基于Boruta特征选择预测效果较好的为RF模型(AUC=0.905)。ROC曲线分析显示,不同预处理方法的最优预测模型间存在差异(2x=7.27,P=0.026)。(2)结直肠癌单因素分析结果显示,肿瘤部位、CA-199、CEA、浸润深度、神经浸润、脉管浸润、T分期、N分期、Dukes分期、术后化疗、阳性淋巴数在预后分组间存在差异(P<0.05)。Boruta方法筛选结果显示,CA-199、阳性淋巴数、神经浸润、手术时间、是否化疗、化疗疗程数为影响预后结局的重要因素。(3)对于结直肠癌术后结局预测模型的比较显示,基于全数据集的预测效果最好的为Polynomial-SVM模型(AUC=0.907),基于差异性分析预测效果最好的为Polynomial-SVM模型(AUC=0.911),基于Boruta特征选择的模型其预测效果以RF为好(AUC=0.982),且三种最优模型之间存在差异(2x=7.74,P=0.021)。(4)COX比例风险模型发现,CA-199高(RR=2.002,95%CI:1.143~3.505)、阳性淋巴数(RR=1.244,95%CI:1.141~1.357)、神经浸润(RR=2.206,95%CI:1.130~4.308)、术中放疗(RR=2.098,95%CI:1.191~3.696)为结直肠癌术后结局的可能危险因素。综上所述,基于Boruta特征选择的模型预测效果较基于传统差异性分析的模型预测效果好,Boruta特征选择算法可作为临床数据预测模型前的数据降维方式,以便降低模型复杂度,同时提高预测效果。基于Boruta特征选择的RF模型能在一定程度上预测CRC根治术后结局,对指导临床医生术前干预有所帮助。