论文部分内容阅读
医疗资料显示,慢性病已经成为危害人类健康最严重的疾病之一。慢性病的一个特点是很难事先做出准确的诊断,但其发生和发展有一定规律可循。慢性病的诊断本质上是机器学习中的数据分类问题。借助机器学习技术能够挖掘慢性病诊断的各种规律和联系,帮助医生建立疾病预警模型。本文提出基于优化线性组合核极限学习机的随机森林算法并将其用于慢性病的分类问题之中,旨在进一步提高慢性病诊断准确率,为医生在临床诊断中提供参考依据。从研究人员利用不同的模型对慢性病数据分类的结果显示,基于支持向量机(SVM)和人工神经网络(ANN)的模型表现出较好的分类性能,但存在模型参数选择困难、单分类器的性能瓶颈、训练速度慢以及不能处理海量医疗数据等缺陷。针对它们存在的局限性,提出了一种基于优化线性组合核极限学习机的随机森林分类算法。主要研究内容如下:1.针对医疗数据不规则、不平坦的问题,本文采用RBF核函数和多项式核函数的线性组合作为核极限学习机的核函数。基于核方法的分类模型的核类型与训练数据有很大的关系,线性组合核不仅能够合理发挥各核函数的优点来充分适应训练数据,而且能降低核类型对模型分类性能的影响。针对模型参数人为难以选择问题,采用粒子群优化算法(PSO)对模型参数进行自适应调整,迭代解出的全局最优参数可以大大提高模型分类性能。2.为打破单分类器性能瓶颈和减少模型训练时间,本文采用学习速度极快的核极限学习机作为随机森林算法的基分类器,同时采用排序加粒子群优化的方式对基于核极限学习机的随机森林算法进行优化,这种优化后的新模型进一步提高了分类性能并减少了训练时间。3.针对单机版的随机森林算法不能处理海量慢性病医疗数据的问题,采用Map-Reduce并行计算模型对提出算法进行了并行化。4.完成了实验的设计和分析。采用UCI乳腺癌慢性病数据集作为实验数据,以优化过的SVM、人工神经网络、极限学习机、原始随机森林以及未优化过的决策树等常用分类算法作为实验比较对象。实验结果表明,本文提出的方法具有更优的分类性能和更低的时间消耗。5.实现了基于大数据平台的慢性病预警原型系统。系统包括数据采集、预处理、建模、智能诊断以及风险预警等功能。