论文部分内容阅读
目的:研究结直肠癌手术治疗中需要进行永久性造口的概率,探究可能导致患者需做永久性造口的危险因素,为临床分析提供参考,降低还纳手术失败病人面临术后并发症的风险。方法:本文基于湘雅医院2018-2019年直肠癌手术240例病人的手术记录,剔除部分缺失及无效数据,最终得到227例有效样本点,其中永久性造口样本点47例,占比不足20%,则样本点中多数类和少数类的比例差异较大,属于不平衡数据。一方面如果少数类样本数据过少会导致使用传统预测方法误差较大,另一方面传统的SMOTE算法只能对数值型数据进行重采样,而本文的数据集含有名义变量,故本文通过Python3.7软件,使用SMOTE-NC算法对数据进行平衡化处理。接着本文将数据集以6:4的比例分为训练集和测试集,并对训练集进行重采样,在原始训练集和重采样训练集上,分别建立基于XGBoost算法的分类模型,以及L1 penalty Logistic模型。结果:通过计算多个模型评价指标,发现XGBoost与L1 penalty Logistic在重采样之后,F-measure,G-mean,Recall指标均有明显提升。可以认为使用重采样数据的模型在需要进行永久性造口的样本点预测上有了显著改进。考虑利用XGBoost的F-score得分排名靠前的变量进行变量筛选,以及L1penalty Logistic给出的系数进行变量解释。本文认为(1)年龄(F-score:625,Logistic系数:0.001952,两者均为重采样后结果,下文Logistic系数用coef代替),(2)肿瘤下缘距肛缘距离(F-score:462,coef:-0.09544),(3)腹腔是否给化疗药-0(即不给)(F-score:220,coef:0.205214),(4)术前有无贫血-0(即非贫血)(F-score:205,coef:0.021091)是更重要的变量,且年龄越大、肿瘤下缘距肛缘距离越近、腹腔未给化疗药、术前无贫血将会导致更高的需要永久性造口概率结论:在永久性结肠造口的研究中应当重点关注上述影响较大的指标,并以XGBoost等模型预测患者所需实施何种造口手术,减少还纳手术并发症的风险。