论文部分内容阅读
目的:基于肝硬化患者的临床病历数据,构建肝硬化患者上消化道出血的随机森林预测模型。通过随机森林模型实现对肝硬化患者并发上消化道出血发病与否及发病概率预测,识别出将会发生上消化道出血的肝硬化患者,把握疾病发展动态。从而可以通过避免接触上消化道出血诱因,以及尽早的干预与预防性治疗等措施,降低肝硬化上消化道出血的发生率及致死率。方法:通过回顾性收集山西医科大学第一临床医院消化内科2006年1月~2015年12月期间出院的肝硬化患者病历中的基本信息、既往疾病史、并发症、入院临床表现及体征、入院血常规、血生化、相关抗原、凝血功能检查等资料。利用卡方检验及T检验筛选出与并发上消化道出血有关联的变量,并经临床专家结合临床实际剔除为上消化道出血的表现的变量。将数据集按3:1:1比例随机分成训练数据集、验证数据集和测试数据集三部分。以筛选出的自变量为输入,是否并发上消化道出血为输出,在训练数据集中分别建立logistic回归、决策树和随机森林预测模型,验证数据集用于决策树和随机森林模型模型性能提升时各不同参数设置模型的预测性能比较,最终在测试数据集中评价三种最终模型预测的准确度、灵敏度、特异度、阳性预测值、阴性预测值和AUC指标并进行比较。结果:通过筛选,最终用于建模的变量为:Child-Pugh分级、恶心、腹胀、浮肿、腹水、移动性浊音、上消化道出血病史、脾切手术史、总蛋白、白蛋白、总胆红素、碱性磷酸酶、谷氨酰转肽酶、血糖、胆固醇、尿素氮、血清钾、凝血酶原百分活动度、活化部分凝血活酶时间、癌胚抗原和CA19-9抗原,共21个。logistic回归预测模型在测试数据集中预测结果为:准确度81.50%、灵敏度60.00%、特异度89.20%、阳性预测值66.70%、阴性预测值86.10%、AUC值0.854。决策树模型通过验证数据集的验证,最佳参数设置为:采用信息熵(information)为分裂属性选择度量标准,后剪枝处理复杂度参数CP为0.026,损失矩阵(loss)设置为C(0,3,1,0)。决策树模型在测试数据集中预测结果为:准确度75.10%、灵敏度78.00%、特异度74.10%、阳性预测值52.00%、阴性预测值90.40%、AUC值0.720。随机森林模型通过验证数据集的验证,最佳参数设置为:模型包含树的棵数(ntree)为500,随机选择的特征数(mtry)为4。随机森林模型在测试数据集中预测结果为:准确度88.90%、灵敏度64.00%、特异度97.80%、阳性预测值91.40%、阴性预测值88.30%、AUC值0.909。通过比较各项指标以及ROC曲线图,随机森林模型具有最佳的肝硬化上消化道出血预测性能。结论:随机森林模型在肝硬化上消化道出血预测中性能优于决策树和传统logistic回归模型。可以利用肝硬化患者的既往疾病史、并发症、入院临床表现及体征、入院血常规、血生化、相关抗原和凝血功能检查这些简单常规检查信息,实现对肝硬化患者并发上消化道出血的是否发病及发病概率预测。可为进一步干预与预防性治疗提供依据。