论文部分内容阅读
【目的】
通过公共临床数据库的数据构建基于机器学习算法的临床预测模型对NICU新生儿败血症进行早期预测。
【方法】
采用回顾性的研究方法,分析来自MIMIC-Ⅲ临床数据库中的入住NICU的7870例新生儿中筛选出612例患儿进行研究,这些患儿在住院期间至少接受过1次败血症评估。定义了1个时间长度为44小时的败血症评估时间窗,为血培养采血时间的前4小时至前48小时的44小时时间间隔,在此时间窗内收集出生情况、生命体征、临床症状、实验室检查结果作为预测变量集。通过血培养结果和抗生素使用时间将败血症诊断结果分为血培养阳性败血症、血培养阴性(临床)败血症、非败血症3个组。将预测变量和诊断结果输入机器学习算法进行有监督学习(模型训练)。经过训练后的预测模型可以通过输入相同时间窗内的预测变量集,得出败血症预测结果,预测结果分为败血症阳性、非败血症。本研究使用了8类机器学习算进行建模,并进行了10次内部交叉验证,最后使用10次交叉验证得到的每个模型的AUC的平均值来评估模型优劣。
【结果】
将败血症分为2组分别对预测模型进行评估:在除外血培养阴性败血症组中8个预测模型中有3个模型的平均AUC超过0.85;其中自适应增强算法在参数为:基分类器(决策树逻辑回归支持向量机),基分类器循环次数(100),学习率(0.1)得到平均AUC为0.85;梯度增强算法在参数为:基分类器数目(200),最大树深度(5)得到平均AUC为0.84;K近邻算法在参数为:近邻数(5),近邻权重(uniform)得到平均AUC为0.80;逻辑回归算法在参数为:L1正则化,C(0.01)得到平均AUC为0.86;随机森林算法在参数为:基分类器个数(100),最大树深度(5),分类标准(信息熵)得到平均AUC为0.85;支持向量机算法在参数为:核函数(RBF),γ(0.1)得到平均AUC为0.83。8个临床预测模型预测结果差异无统计学意义(P>0.05)。在包括血培养阴性组中8个预测模型(相同参数)的平均AUC均超过0.85,8个临床预测模型预测结果差异无统计学意义(P>0.05)。在预测变量中相关系数较高为:中心静脉置管、白细胞计数、平均动脉压、未成熟红细胞比率、发热、呼吸暂停、出生体重、机械通气。
【结论】
通过建立基于机器学习算法的临床预测模型,可在较早的时间识别新生儿败血症。在临床工作中协助临床医生早发现新生儿败血症的发生,同时也可以减少误诊,从而避免过度治疗。可以通过减少缺失值和增加训练样本提高模型的预测性能。
通过公共临床数据库的数据构建基于机器学习算法的临床预测模型对NICU新生儿败血症进行早期预测。
【方法】
采用回顾性的研究方法,分析来自MIMIC-Ⅲ临床数据库中的入住NICU的7870例新生儿中筛选出612例患儿进行研究,这些患儿在住院期间至少接受过1次败血症评估。定义了1个时间长度为44小时的败血症评估时间窗,为血培养采血时间的前4小时至前48小时的44小时时间间隔,在此时间窗内收集出生情况、生命体征、临床症状、实验室检查结果作为预测变量集。通过血培养结果和抗生素使用时间将败血症诊断结果分为血培养阳性败血症、血培养阴性(临床)败血症、非败血症3个组。将预测变量和诊断结果输入机器学习算法进行有监督学习(模型训练)。经过训练后的预测模型可以通过输入相同时间窗内的预测变量集,得出败血症预测结果,预测结果分为败血症阳性、非败血症。本研究使用了8类机器学习算进行建模,并进行了10次内部交叉验证,最后使用10次交叉验证得到的每个模型的AUC的平均值来评估模型优劣。
【结果】
将败血症分为2组分别对预测模型进行评估:在除外血培养阴性败血症组中8个预测模型中有3个模型的平均AUC超过0.85;其中自适应增强算法在参数为:基分类器(决策树逻辑回归支持向量机),基分类器循环次数(100),学习率(0.1)得到平均AUC为0.85;梯度增强算法在参数为:基分类器数目(200),最大树深度(5)得到平均AUC为0.84;K近邻算法在参数为:近邻数(5),近邻权重(uniform)得到平均AUC为0.80;逻辑回归算法在参数为:L1正则化,C(0.01)得到平均AUC为0.86;随机森林算法在参数为:基分类器个数(100),最大树深度(5),分类标准(信息熵)得到平均AUC为0.85;支持向量机算法在参数为:核函数(RBF),γ(0.1)得到平均AUC为0.83。8个临床预测模型预测结果差异无统计学意义(P>0.05)。在包括血培养阴性组中8个预测模型(相同参数)的平均AUC均超过0.85,8个临床预测模型预测结果差异无统计学意义(P>0.05)。在预测变量中相关系数较高为:中心静脉置管、白细胞计数、平均动脉压、未成熟红细胞比率、发热、呼吸暂停、出生体重、机械通气。
【结论】
通过建立基于机器学习算法的临床预测模型,可在较早的时间识别新生儿败血症。在临床工作中协助临床医生早发现新生儿败血症的发生,同时也可以减少误诊,从而避免过度治疗。可以通过减少缺失值和增加训练样本提高模型的预测性能。