随机森林算法的改进及其在慢性病预警模型中的应用研究

来源 :北京工业大学 | 被引量 : 3次 | 上传用户:woai2011ni
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
医疗资料显示,慢性病已经成为危害人类健康最严重的疾病之一。慢性病的一个特点是很难事先做出准确的诊断,但其发生和发展有一定规律可循。慢性病的诊断本质上是机器学习中的数据分类问题。借助机器学习技术能够挖掘慢性病诊断的各种规律和联系,帮助医生建立疾病预警模型。本文提出基于优化线性组合核极限学习机的随机森林算法并将其用于慢性病的分类问题之中,旨在进一步提高慢性病诊断准确率,为医生在临床诊断中提供参考依据。从研究人员利用不同的模型对慢性病数据分类的结果显示,基于支持向量机(SVM)和人工神经网络(ANN)的模型表现出较好的分类性能,但存在模型参数选择困难、单分类器的性能瓶颈、训练速度慢以及不能处理海量医疗数据等缺陷。针对它们存在的局限性,提出了一种基于优化线性组合核极限学习机的随机森林分类算法。主要研究内容如下:1.针对医疗数据不规则、不平坦的问题,本文采用RBF核函数和多项式核函数的线性组合作为核极限学习机的核函数。基于核方法的分类模型的核类型与训练数据有很大的关系,线性组合核不仅能够合理发挥各核函数的优点来充分适应训练数据,而且能降低核类型对模型分类性能的影响。针对模型参数人为难以选择问题,采用粒子群优化算法(PSO)对模型参数进行自适应调整,迭代解出的全局最优参数可以大大提高模型分类性能。2.为打破单分类器性能瓶颈和减少模型训练时间,本文采用学习速度极快的核极限学习机作为随机森林算法的基分类器,同时采用排序加粒子群优化的方式对基于核极限学习机的随机森林算法进行优化,这种优化后的新模型进一步提高了分类性能并减少了训练时间。3.针对单机版的随机森林算法不能处理海量慢性病医疗数据的问题,采用Map-Reduce并行计算模型对提出算法进行了并行化。4.完成了实验的设计和分析。采用UCI乳腺癌慢性病数据集作为实验数据,以优化过的SVM、人工神经网络、极限学习机、原始随机森林以及未优化过的决策树等常用分类算法作为实验比较对象。实验结果表明,本文提出的方法具有更优的分类性能和更低的时间消耗。5.实现了基于大数据平台的慢性病预警原型系统。系统包括数据采集、预处理、建模、智能诊断以及风险预警等功能。
其他文献
以川南旅游区为案例,对旅游商品的概念、类型、开发原则与措施等问题进行了理论探讨。提出了川南旅游商品开发的重要意义,对川南旅游商品开发的一些原则性、战略性问题,进行了初
为了确保完成“‘十一五’期间全国主要污染物排放总量减少10%”的任务,国务院提出建立和完善包括“指标、监测和考核体系”在内的污染减排“三大体系”。国家环保部为落实“
物理学立足于实验,物理实验对建立物理概念、发现物理规律以及创建物理理论有着重要的作用。初中物理教材中涉及到一定量的实验,这些实验可以充分地激发学生学好初中物理学科
瑜伽又被称为“Yoga”(或者yuj),是由印度圣哲帕坦伽利开创的修身体系,包含对人类生理、心理和精神等方面调控的内容。瑜伽术有着多样化的运动姿势、呼吸技法及冥想法则,练习者要在了解瑜伽基本理论情况下,对自我的身体、心灵和行为特征进行控制,尽可能达到生理运动、心理状态与情感的统一。本文主要以郑州市区健身俱乐部的瑜伽运动为例,利用文献查阅、问卷调查、访谈和数理统计等方法,对郑州市29家健身俱乐部瑜伽
伴随经济的快速发展,生活质量和审美品位的不断提升,人们对居家装饰的理念正发生着质的变化。在以冰冷的钢筋水泥和现代科技构筑的居住空间中,奢华类的设计风格逐渐让人觉得
采用定心汤治疗心脏神经官能63例,并与采用倍他乐克治疗的58例进行疗效对照观察,结果总有效率前者为95.2%,后者为58.6%。显示定心汤对本病确有较好疗效,并阐述了定心汤的治疗
综合分析了水溶性分子沉积膜的表面及界面特性、吸附特性、表面zeta电位、破乳作用和驱油机理。在此基础上,结合国内外资料认为应用分子沉积膜驱油荆不降低水溶液的表面张力,能
注水采油已经成为提高原油采收率的重要手段。目前,我国大部份油田已进入石油开发的中后期,采出液含水平均达85%以上,因此,油田开发过程中采出水量非常大。如何高效处理油田产出
《看虹录》诞生以来毁誉沉浮。其实众多批评家的批评并不是空穴来风。作品书写的是男性的性幻想,同时又对女性的生殖部位反复歌咏,招致非议不可避免。“虹”意象所象征的不仅仅
伴随人工智能技术的迅猛发展,自动驾驶时代正在到来。一方面,自动驾驶技术能够大幅降低交通事故的发生、缓解交通拥堵、增强人们的移动性、提升时间利用效率,具有极大的社会