论文部分内容阅读
目的调查钢铁工人颈动脉粥样硬化(Carotid Atherosclerosis,CAS)现况。通过构建钢铁工人CAS的logistic回归、随机森林、BP神经网络及支持向量机预测模型,评价预测效果,筛选最优模型实现钢铁工人CAS的风险预测。方法采取现况研究的方法,选取2017年3-6月在唐山弘慈医院体检的在岗钢铁工人(从事钢铁作业时长≥1年)为研究对象。所有工人经体格、血生化、血常规、尿常规及颈动脉彩色多普勒超声检查及问卷调查。制定统一的定义或诊断标准判断工人各项指标的情况。根据是否检出CAS分成CAS组(CAS)与非CAS组(non-CAS)。计数资料的比较采用x~2检验或fisher确切概率法,正态计量资料的比较采用t检验或Z检验;非正态计量资料的比较采用非参数检验。采用非条件二元logistic回归分析CAS的预测因素,结合logistic回归分析、文献综述及专家咨询的结果确定输入变量,以CAS为目标变量分别建立logistic回归、BP神经网络、随机森林和支持向量机预测模型对钢铁工人CAS进行预测。通过灵敏度、特异度等若干指标评价筛选最优模型。结果1.共4568例钢铁工人完成调查,其中1264例被诊断为CAS,检出率为27.67%。有饮酒、倒班、高温、噪声、高胆固醇、高尿酸血症及CAS家族史的钢铁工人的CAS检出率均高于无这些行为或特征的钢铁工人,差异具有统计学意义(P<0.05)。多因素logistic回归分析发现高温、噪声、CAS家族史及高胆固醇为钢铁工人CAS的预测因素。2.针对训练集样本,logistic回归、BP神经网络、随机森林、支持向量机模型预测正确率(符合率)分别为77.17%、79.27%、86.60%、83.81%;灵敏度分别为71.34%、66.19%、73.62%、80.10%;特异度分别为82.67%、91.62%、98.90%、87.32%;约登指数分别为0.54、0.58、0.72、0.67;阳性似然比分别为4.12、7.90、65.01、6.31;阴性似然比分别为0.35、0.37、0.27、0.23;ROC曲线下面积(AUC)分别为0.77、0.79、0.86、0.84;Kappa值分别为0.54、0.58、0.73、0.68;阳性预测值分别为79.55%、88.18%、98.40%、85.64%;阴性预测值分别为75.33%、74.15%、79.87%、86.92%。支持向量机模型的灵敏度最高,随机森林模型的特异度、正确率及AUC均为最高,与其他模型相比均具有统计学差异(P<0.05)。3.针对测试集样本,logistic回归、BP神经网络、随机森林、支持向量机模型预测正确率(符合率)分别为76.33%、75.46%、73.37%、85.70%;灵敏度分别为71.40%、64.65%、60.00%、81.63%;特异度分别为81.90%、87.66%、88.45%、90.29%;约登指数分别为0.53、0.52、0.48、0.72;阳性似然比分别为3.94、5.42、5.20、8.41;阴性似然比分别为0.35、0.40、0.45、0.20;ROC曲线下面积(AUC)分别为0.77、0.76、0.74、0.86;Kappa值分别为0.53、0.52、0.48、0.71;阳性预测值分别为81.65%、85.54%、85.43%、90.46%;阴性预测值分别为71.72%、68.72%、66.21%、81.32%。支持向量机模型的灵敏度、特异度、正确率及AUC均为最高,与其他模型相比,差异均具有统计学意义(P<0.05)。结论1高温、噪声、CAS家族史及高胆固醇可能对钢铁工人CAS发病具有一定的预测价值。2支持向量机模型预测钢铁工人CAS的预测效果最佳,可较精确地预测钢铁工人CAS的发病风险。图6幅;表22个;参134篇。