基于改进邻域粗糙集和随机森林算法的糖尿病预测研究

来源 :首都经济贸易大学 | 被引量 : 23次 | 上传用户:liang6666
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
糖尿病已成为全球危害性较大的慢性疾病之一,而中国更是全球糖尿病第一大国,近年来患病率还呈现出逐年增高的趋势,严重影响人类健康。并且随着医疗服务水平的不断提高,人们对医疗诊断效率以及准确率有了更高的要求。目前该疾病的诊断主要是在化验的基础上由医生人工诊断完成,但是糖尿病的潜伏期较长,而且各地区医疗资源不协调。针对以上这些问题,论文采集了国家人口与健康科学数据共享服务平台某医院糖尿病数据,并针对邻域粗糙集的只依赖单属性计算重要度的不足,提出了改进的邻域粗糙集(INRS)属性约简算法,后将其与随机森林(RF)组成分类预测模型应用在糖尿病数据上,形成了高精度的糖尿病预测模型,旨为医生临床诊断和疾病研究等提供辅助支持,提高临床诊断治疗水平。本文分别使用MATLAB和WEKA实现糖尿病数据的改进的邻域粗糙集(INRS)属性约简和随机森林(RF)分类预测。后面为探讨该组合模型的成效,分别从属性约简和分类器选择两个方面进行了对比分析。首先从属性约简效果分析,分别以不约简、粗糙集约简、邻域粗糙集约简和改进的邻域粗糙集算法建立特征模型,并将约简后的数据使用随机森林分类器评估效果,发现约简后的数据明显比不约简好,分类更准确,而改进后的邻域粗糙集虽然属性个数比未改进的多,但分类准确率最优,说明改进算法有改善。然后从分类器选择效果分析,对INRS约简后的数据使用随机森林算法、BP算法、C4.5算法及Naive Byes算法分类器从建模耗时、误差、分类准确率、ROC面积四个方面进行对比分析,发现综合效果最优的是随机森林分类器。综上,本论文中的基于改进的邻域粗糙集和随机森林的组合模型得到的糖尿病预测模型的分类准确率达到92.05%,其综合效果甚佳。通过本次研究希望后续可以将糖尿病预测功能添加到医院的诊疗系统中,进而辅助医生对糖尿病诊断做出科学的诊断决策。
其他文献
本文从县级城市建设管理中存在的问题入手,通过分析原因,对县级城市建设管理存在的问题提出一些改进建议。
目的进一步探讨一氧化氮(NO)及其合酶在糖尿病视网膜氧化损伤中的作用。方法链脲佐菌素制备大鼠糖尿病模型,注射生理盐水作为对照,分别取正常对照及模型制备成功后2周及20周
本论文调研中国核电领域设备可靠性标准的发展现状,找出该领域目前可靠性标准建设方面的不足。针对国内外可靠性工作开展较早、可靠性标准建设比较完善的领域开展调研,结合中
目的构建血小板源性生长因子B(PDGF B)原核表达载体,表达足量的PDGF BB蛋白,作用于体外培养的猫角膜内皮细胞,观察角膜内皮细胞增殖情况。方法从健康剖宫产妇胎盘组织中提取
从国家发展战略、石油工业发展战略、石油企业发展战略等方面,对我国1953—2010年"一五"至"十一五"长达58年的石油科技规划目标和主要内容进行了系统梳理,回顾了我国石油科技
近年来,人们对半导体纳米光学材料的研究越来越广泛。从1972年Fujishima和Honda利用TiO2电极实验发现光解水现象开始,人们逐步开始对半导体材料进行研究。本文就纳米材料光催
<正>作文作为语文学习的重要部分之一,主要是为了加强学生的自我表达能力和对美的情感体验,然而在当下的写作现状中,普遍出现了学生写作失真的现象,甚至生搬硬套别人的写作模
大湾区是建设世界级城市群和参与全球竞争的重要空间载体,湾区经济已经成为当今世界经济版图的突出亮点。随着粤港澳大湾区建设上升为国家战略,"湾区经济"迅速成为全国关注的
研究了无界区域Rn上GBBM方程的长时间动力学行为,利用算子分解技巧和构造加权空间上紧算子等方法,通过对方程的解作先验范数估计,证明了无界区域Rn上GBBM方程整体吸引子的存
<正>辣椒疫病属土传病害,病菌主要靠雨水、灌水传播,是温泉县辣椒生产中的主要病害,在露地辣椒和设施辣椒栽培中普遍发生,发病时一般减产20%~30%,严重时绝收。1症状表现辣椒生