论文部分内容阅读
目的:探讨机器学习技术应用于老年患者PICC导管相关性静脉血栓的预测及相关危险因素分析的可行性,以降低老年患者PICC导管相关性血栓的发生率,为指导临床实践提供理论参考依据。方法:本研究在某综合三级甲等医院PICC中心进行样本收集。通过文献回顾的方法纳入57项特征,包括患者相关因素、操作及治疗的相关因素、导管相关因素。回顾性数据作为训练集构建模型,前瞻性数据作为测试集对模型的效能进行测试。回顾性数据纳入2018年10月1日-2020年1月30日在PICC中心置管,并置管后在该医院进行静脉治疗的老年患者。充分挖掘老年患者PICC导管相关性静脉血栓的风险因素,并分别使用决策树(DT)、随机森林(RF)、支持向量机(SVM)、贝叶斯(Bayes)、梯度上升决策树(GBDT)、极端梯度提升树(XGBoost)、深度神经网络(DNN)共7种机器学习算法构建各因素与PICC导管相关性静脉血栓结局之间的关联规则。前瞻性纳入2020年9月1日-2021年5月31日在PICC中心置管的老年患者的信息,将数据带入7种机器学习模型,并利用控制变量法进行70次模型验证,获取7种分类模型的AUC、准确率等性能指标,最终以综合评分来选取最优模型。利用excel软件进行数据的录入以及初步处理,使用Python V3.6.2构建各因素间及各因素与结局之间的关联规则,并进行模型的验证测试。结果:共收集522名老年患者信息,回顾性资料382例,其中正例76例,负例306例,正负样本比例1:4;前瞻性资料140例,其中正例30名,负例110名,正负样本比例1:3.6。所有患者中癌症患者占82.4%;男性258人,女性264人;患者平均年龄为69.62岁;导管留置时间的中位数与范围为:85.07(34-268)天。以导管相关性静脉血栓作为结局指标将数据分为两组,SPSS单因素分析结果显示以下因素在两组间有统计学差异:置管后有手术史(χ~2=23.73,P<0.01)、恶性肿瘤(χ~2=73.71,P<0.01)、置管后置管处出现皮肤感染(χ~2=14.31,P<0.01)、中医抗肿瘤治疗(χ~2=7.25,P=0.01)、PT(Z=-2.02,P=0.04)、PT-INR(Z=-2.13,P=0.03)。利用随机森林(RF)模型进行与结局指标相关特征的重要性排序,得到的重要性排名前30的特征如下:导管留置时间、凝血酶原标准化比值(PT-INR)、血清白蛋白、导管安置长度、空腹血浆血糖水平、凝血酶原时间(PT)、高密度脂蛋白、BMI、血小板、血型、白细胞、D-二聚体、手术史、活化部分凝血活酶时间(APTT)、婚姻状况、年龄、置管位置、NRS营养风险评估得分、血浆纤维蛋白原(FIB)、恶性肿瘤、置管侧臂围、抗凝/抗血小板药物治疗、置管侧手臂为惯用手、低密度脂蛋白、置管者、吸烟史、性别、文化程度、置管静脉、中医抗肿瘤治疗。以回顾性数据进行模型训练,将排名前30的特征带入模型中,得到各关联因素与结局指标间的关联规则,并在测试集上获得了7种分类模型的AUC、特异性、敏感性、准确率,AUC得分最靠前的前三名是GDBT(0.85)、RF(0.84)、XGBoost(0.83),但GDBT的特异性很低,仅为0.56,准确率仅为0.66,而RF的准确率也仅为0.74,均低于XGBoost的0.81。因此,在以综合各评分的情况下,XGBoost构建的模型的预测结果稳定性更好,综合评分最优。结论:针对老年患者,机器学习技术能够全面地挖掘PICC导管相关性静脉血栓风险的相关因素,并较准确地预测其发生风险,能够为未来临床工作中筛选高风险患者提供技术支持。