论文部分内容阅读
近些年来,大数据与机器学习等技术的快速发展为众多行业带来了创新与变革。随着精准医疗计划的进行,机器学习与健康医疗大数据的结合,给人们带来了对未来大数据健康事业的无限遐想。为降低医生由于自身经验不足而对诊断造成对误判的风险,可将机器学习中的分类算法应用到疾病的辅助诊断中。使用模型分类得到的结果来帮助医生做出判断,将能提高医生诊断的准确率。分类算法首先针对训练集训练出相应的分类模型,之后将病人的检查数据输入到训练好的模型中,即可得到病人是否有患此类疾病的可能。分类预诊模型虽然不能完全替代医生,但医生可通过参考其分类结果来做出更精确的判断。心脏病是人类健康的首要杀手,世界上由心脏病引起的人口死亡约占1/3,我国每年亦有数十万的人死于心脏病。所以,若能通过人体的相关可测指标,使用大数据的研究方法来预测发生心脏病的可能,这将对人们了解自己的健康状况及预防心脏病的发生起到至关重要的作用。本文的研究目的在于:通过比较几种不同的分类算法在心脏病数据集上的预测准确率及其参数确定,找出对心脏病预诊相对有效的分类模型。主要研究内容与取得的成果如下:1、通过对比K近邻、线性核SVM、RBF核SVM、逻辑回归、决策树、朴素贝叶斯以及随机森林这7种分类算法在心脏病数据集上的分类准确率,得到RBF核SVM在心脏病预诊方面具有更高的分类准确率,该结论将作为后续研究的基础。2、针对RBF核SVM的分类准确率受其参数组合影响较大的特点,使用改进后的APSO算法替代网格搜索法对其参数进行优化,提出了一种基于APSO算法改进的RBF核SVM心脏病预诊模型。3、将基于APSO算法改进后的RBF核SVM分类模型应用于心脏病数据集的分类,结果证实分类的准确率被进一步提升。分类准确率在克利夫兰医学中心的心脏病数据集上由85.56%提升至86.55%,在匈牙利心脏病研究所的心脏病数据集上由87.78%提升至88.80%。本文所提出的针对心脏病数据集的分类预诊模型,都分别在UCI的数据集上进行了验证。