论文部分内容阅读
目的:针对2013年深圳市98家医院呼吸系统疾病住院费用数据,使用随机森林、支持向量机、神经网络三种方法建立模型,比较三种机器学习方法在不同样本量下对住院费用的预测性能,探讨机器学习方法在住院费用预测问题中应用的优劣,为住院费用预测问题提供机器学习方法上的支持。方法:将2013年深圳市呼吸系统疾病住院数据划分为互斥的训练集和测试集。在测试集上分别进行随机森林、支持向量机、神经网络模型超参数优化以及模型训练,然后用完成训练的模型在测试集上对因变量进行预测输出,并与因变量的真实值进行对比。通过ROC曲线下面积、混淆矩阵、精度、查准率、查全率及F1分数等指标对三种机器学习模型进行评价比较。在不同样本量的子集以及完整数据集上重复这一实验过程,从而获得三种机器学习方法在不同样本量下的表现变化。结果:1.500样本量下,随机森林、支持向量机、神经网络模型ROC曲线下面积分别为0.911、0.875、0.796;精度分别为64.80%、63.20%、54.40%;F1分数分别为63.52、62.36、53.29。随机森林与支持向量机表现较神经网络好,但是随机森林模型训练及预测耗时均最长。2.2000样本量下,三种模型ROC曲线下面积分别为0.944、0.915、0.923;精度分别为76.40%、71.80%、74.80%;F1分数分别为75.79、71.33、74.22。此时三种方法的预测性能差距明显缩小,神经网络模型的各项指标都显著提升,随机森林模型依然耗时最长。3.10000样本量下,三种模型ROC曲线下面积分别为0.945、0.934、0.934;精度分别为76.60%、74.44%、74.44%;F1分数分别为76.78、74.23、74.39。三种方法差距进一步缩小,随机森林及支持向量机的训练耗时都明显增加。4.124980样本量下,三种模型ROC曲线下面积分别为0.942、0.939、0.953;精度分别为76.80%、74.88%、77.51%;F1分数分别为77.10、74.81、77.73。无论从训练、预测耗时上,还是预测性能指标上,神经网络模型均是最优的。支持向量机及随机森林模型的预测性能依然较好,但训练耗时分别达到了神经网络模型的4.4倍和44.8倍。总体来看,随机森林在不同样本量下均表现较好,十分稳定;支持向量机在小样本下有不错表现,大样本下虽然预测依然可靠,但计算量过大,耗时过长;神经网络在样本量不足的情况下预测性能远低于其他两种方法,但随着样本量增长,预测性能提升迅速,且始终耗时较短。结论:1.随机森林、支持向量机、神经网络在呼吸系统疾病住院费用预测应用中均具有可行性。2.随着样本量增长:随机森林预测能力稳定且优秀,计算耗时可接受;支持向量机预测能力稳定但稍逊于随机森林,计算耗时呈指数型增长;神经网络预测能力明显提升,计算耗时最少。3.超参数优化对于支持向量机、神经网络模型预测性能提升有明显帮助,对随机森林模型的帮助有限。