论文部分内容阅读
目的:分析静脉注射丙种球蛋白无反应性川崎病的危险因素,并建立适合预测深圳市儿童医院丙种球蛋白无反应性川崎病的评分模型。方法:(1)临床数据收集:调阅2014年1月至2018年12月五年深圳市儿童医院住院期间第一诊断为川崎病的患儿临床电子病历资料,包括人口学信息、IVIG治疗前实验室检查(血常规结果包括IVIG治疗前、治疗后48h)、治疗与管理方案、心脏超声结果,录入REDCap系统。(2)原始数据初步处理:在Redcap程序建立数据库后导出原始数据,根据AHA 2017年KD诊疗指南IVIGRKD诊断标准筛选出IVIGRKD病例,对数据进行清洗,缺失值填补,变量标准化。(3)特征选择:运用Python机器学习,Bootstrap1000次抽取70%病例作为训练集,三种不同方法进行特征选择,即经典的差异性检验方法、Lasso(Least Absolute Shrinkage and Selection Operator)、递归特征消除(Recursive feature elimination,RFE),基于支持向量机(Support Vector Machine,SVM)分类器建模,根据AUC等指标比较三种特征选择方法选出最适者。(4)构建预测模型:经过上述步骤得出最佳特征选择的方法后与三个常用的适用于样本量相对较小的研究的分类器,即Logistic回归、SVM、Random Forest建立模型。(5)验证模型:Bootstrap1000次抽取30%病例作为验证集,并计算三个模型各自的AUC值、灵敏度、特异度、准确率及其95%可信区间进行比较。(6)与现有模型对比:通过灵敏度、特异度、AUC、95%可信区间等指标与现有影响力较大的预测IVIGRKD评分系统比较,评价新模型可靠性。(7)统计分析:采用R语言3.6.0版本进行数据统计分析,定性资料用百分比表示,定量资料用均值±标准差(t)表示。删除缺失值≥10%的变量,对于缺失值<10%的变量,分类变量用比例最大的类别填补,连续型变量用Bayesian linear回归填补。用训练集计算均值和方差对变量进行标准化。对定量资料若符合正态分布使用t检验,若不符合正态分布使用Kruskal-Wallis H检验,定性资料采用卡方检验,P<0.05认为差异有统计学意义。根据Lasso-Logistic回归模型绘制列线图使预测模型易于理解。结果:本课题收集深圳市儿童医院五年期间共833例川崎病,包括IVIG无反应107(12.8%)例和IVIG敏感726(87.1%)例。基于SVM建模三种方法特征选择,Lasso-SVM(AUC=0.878)的AUC值大于Test-SVM(AUC=0.872)和RFE-SVM(AUC=0.860),认为Lasso比经典差异性检验方法及RFE更适于本研究的特征选择。Lasso特征选择出13个发生IVIGRKD危险因素,包括年龄,IVIG治疗前血常规中的平均血小板体积(MPV)和血小板与淋巴细胞比值(PLR),IVIG治疗后48h血常规中的中性粒细胞绝对值(NEU)、血小板计数(PLT)、血红蛋白浓度(HB)以及红细胞计数(RBC),谷草转氨酶(AST)、血清钠离子浓度,总蛋白(TP),白蛋白(ALB),是否有无菌性脓尿(Pyuria),左冠状动脉前降支的Z值(LADZ)。Lasso-Logistic回归模型的AUC=0.885(95%CI0.8505~0.9485)、灵敏度=0.888(95%CI 0.6384~0.8837)、特异度=0.685(95%CI0.7027~0.9706)、准确率=0.886(95%CI 0.8536~0.9476),认为Lasso-Logistic回归模型效能更高,且其结果能转换成可视化的列线图(又称诺谟图,Nomogram)易于理解,因此更适合建立预测模型。Lasso-Logistic回归模型的AUC值明显高于现有预测IVIGRKD评分系统。结论:(1)本研究建立了深圳市儿童医院IVIGRKD预测模型,与以往IVIGRKD评分系统相比,得出IVIG治疗前的MPV和PLR以及LADZ三个新的IVIGRKD危险因素。(2)本研究利用Lasso-Logistic回归建立IVIGRKD预测模型并转化成可视化的列线图,适合临床应用。(3)本研究建立的新模型AUC值高于现有IVIGRKD评分系统,可为预测深圳市儿童医院IVIGRKD提供依据。