论文部分内容阅读
目的: 肝性脑病是肝硬化最常见的并发症之一,临床表现复杂多变、治愈率低、预后差,已成为导致肝硬化患者生存率低的重要原因,因此针对肝硬化患者构建肝性脑病风险预测模型显得极为重要。同时,肝硬化并发肝性脑病数据具有类别非均衡的特征,传统统计学方法与机器学习算法存在着无法有效识别少数类,预测性能欠佳的问题。因此,本课题针对上述问题,采用基于代价敏感的随机森林与支持向量机算法构建肝硬化并发肝性脑病风险预测模型,以提高对肝硬化并发肝性脑病的预测效能,为临床医生识别肝性脑病高危人群,选择合理的治疗措施提供依据,为其他疾病风险预测研究提供方法学借鉴。 方法: 采用2010年1月至2017年4月山西医科大学第二附属医院消化内科确诊为肝硬化住院患者的病历资料,按照纳入排除标准整理数据资料后获得1256例有效数据。利用单因素分析及基于随机森林的受试者工作特征曲线下面积算法(The area under the receiver operating characteristic curve of the random forest,AUC-RF)的自变量筛选方法选出与肝硬化并发肝性脑病相关的因素。然后以筛选出的变量作为输入变量,是否并发肝性脑病作为结局变量,构建Logistic回归、加权随机森林(Weighted Random Forest, WRF)和基于代价敏感的支持向量机(Cost Sensitive Support Vector Machine,CS-SVM)分类预测模型,探讨其分类预测性能,同时与传统随机森林、支持向量机分类预测模型的识别能力进行比较。最后,采用Logistic回归与WRF算法实现对肝硬化患者并发肝性脑病的概率预测。 结果: 1、通过单因素检验与基于AUC-RF自变量筛选方法,筛选出与肝硬化并发肝性脑病相关的20个变量,分别为:便秘、浮肿、电解质紊乱、上消化道出血、感染、利尿剂、白细胞、红细胞、血红蛋白、中性粒细胞百分比、谷草转氨酶、钠、氯、白蛋白、总蛋白、直接胆红素、间接胆红素、凝血酶原时间、纤维蛋白原和活化部分凝血活酶时间。将其作为输入变量引入到Logistic回归、WRF和CS-SVM算法,构建出肝硬化并发肝性脑病风险预测模型。 2、分类模型预测性能评价:Logistic回归分类预测模型评价指标的中位数分别为:灵敏度70.00%,特异度83.38%,准确度82.54%,G-means 0.7679,F-measure 0.3688, AUC值0.7721;WRF的分类预测模型评价指标中位数分别为:灵敏度70.00%,特异度85.82%,准确度84.69%,G-means 0.7739,F-measure 0.3930,AUC值0.7778;CS-SVM分类预测模型评价指标中位数分别为:灵敏度71.66%,特异度82.99%,准确度82.06%, G-means 0.7657,F-measure 0.3560,AUC值0.7688。 3、分类模型预测性能比较:在同一数据集上构建上述三种模型及传统随机森林、支持向量机分类预测模型,比较各指标显示:WRF、CS-SVM与Logistic回归模型对并发肝性脑病患者的识别能力高于传统机器学习模型(灵敏度高于70.00%),对未并发肝性脑病患者的识别能力略低于传统模型(特异度约为85.00%),模型综合评价指标高于其他模型(G-means高于0.8000,F-measure高于0.4000)。WRF的三个指标Gmeans(0.8221)、F-measure(0.4646)以及AUC(0.8241)均优于Logistic回归与CS-SVM模型。 4、概率预测模型:WRF不仅可用于构建肝硬化并发肝性脑病分类预测模型,同时也可较好地预测患者发病概率。 结论: 基于代价敏感的随机森林与支持向量机算法可以弥补传统机器学习在非均衡数据分类问题中的不足,提高模型对于此类数据的分类预测性能。在进行肝硬化并发肝性脑病分类预测时,基于代价敏感的随机森林与支持向量机算法的预测性能高于其他模型,而且加权随机森林可提供患者的发病概率,使得肝性脑病发生概率的估计更为直观与高效。本文采用WRF与CS-SVM建立的分类与概率预测模型可帮助临床医生识别肝性脑病高危患者,对延长肝性脑病患者的生存期,提高其生存质量具有重要的现实意义。