论文部分内容阅读
糖尿病已成为全球危害性较大的慢性疾病之一,而中国更是全球糖尿病第一大国,近年来患病率还呈现出逐年增高的趋势,严重影响人类健康。并且随着医疗服务水平的不断提高,人们对医疗诊断效率以及准确率有了更高的要求。目前该疾病的诊断主要是在化验的基础上由医生人工诊断完成,但是糖尿病的潜伏期较长,而且各地区医疗资源不协调。针对以上这些问题,论文采集了国家人口与健康科学数据共享服务平台某医院糖尿病数据,并针对邻域粗糙集的只依赖单属性计算重要度的不足,提出了改进的邻域粗糙集(INRS)属性约简算法,后将其与随机森林(RF)组成分类预测模型应用在糖尿病数据上,形成了高精度的糖尿病预测模型,旨为医生临床诊断和疾病研究等提供辅助支持,提高临床诊断治疗水平。本文分别使用MATLAB和WEKA实现糖尿病数据的改进的邻域粗糙集(INRS)属性约简和随机森林(RF)分类预测。后面为探讨该组合模型的成效,分别从属性约简和分类器选择两个方面进行了对比分析。首先从属性约简效果分析,分别以不约简、粗糙集约简、邻域粗糙集约简和改进的邻域粗糙集算法建立特征模型,并将约简后的数据使用随机森林分类器评估效果,发现约简后的数据明显比不约简好,分类更准确,而改进后的邻域粗糙集虽然属性个数比未改进的多,但分类准确率最优,说明改进算法有改善。然后从分类器选择效果分析,对INRS约简后的数据使用随机森林算法、BP算法、C4.5算法及Naive Byes算法分类器从建模耗时、误差、分类准确率、ROC面积四个方面进行对比分析,发现综合效果最优的是随机森林分类器。综上,本论文中的基于改进的邻域粗糙集和随机森林的组合模型得到的糖尿病预测模型的分类准确率达到92.05%,其综合效果甚佳。通过本次研究希望后续可以将糖尿病预测功能添加到医院的诊疗系统中,进而辅助医生对糖尿病诊断做出科学的诊断决策。