论文部分内容阅读
据统计,慢性病现如今已成为我国人口死亡的第一原因,其中慢病之一的心血管疾病对全球人类的危害也在持续增长,人们对心血管健康的诉求也持续升温,有效的判别和预测心血管健康对心血管疾病有极大的预防作用。医院体检中心每年组织体检不涉及心血管健康相关的生活特征数据,基于体检数据预测体检人群心血管健康状态,通过传统的时间序列的预测方法和基于医学上常用方法都不在适用,但是数据挖掘可以弥补其不足,能够探索数据的规律预测心血管健康状态。本文根据上述目标和数据挖掘的过程给出了预测心血管健康状态的方法和过程,结合心血管健康状态序列和筛选得到的体检特征指标来探索心血管健康状态预测模型,最后得到RBF神经网络构建的心血管健康状态等级预测模型。因此本文围绕心血管健康状态预测的数据挖掘过程及所要解决的问题和达到的目标开展研究工作,取得了以下研究成果:1.构建了一个基于数据挖掘流程的健康状态判别与预测模型。基于现有的体检数据和需要探索的目标进行需求分析,对数据进行提取和转换,构建数据挖掘模型进行心血管健康或者疾病的预测并且基于预测结果进行服务推荐。2.提出基于融合过滤和封装的属性约简算法。调研了基于特征转换和特征选择的特征降维方法,并且对比了基于过滤的和封装的特征选择算法,为减少冗余性和提高性能,提出基于融合过滤和封装的属性约简算法来实现特征选择问题。3.基于模糊聚类的健康状态等级判别。以特征选择筛选得到的特征为基础,指出模糊逻辑推理和硬聚类算法进行健康状态判别的不足及最后选择模糊逻辑聚类算法来实现健康状态等级划分,因而得到了基于模糊聚类的等级判别模型。4.基于RBF神经网络的心血管健康状态等级预测模型。基于健康状态判别得到的健康状态序列结合体检过程中的部分静态体检指标构建基于RBF神经网络预测模型实现健康状态等级的预测。针对上述过程中的子模块分别进行了真实数据模拟,使用两家医院连续6年的成年人体检数据作为实验数据训练和测试,实验验证的环节首先基于体检数据源分析了数据的结构和现有数据问题,结合异常问题阐述了异常原因和介绍了不同数据清理方法,基于上述数据挖掘过程的不同算法模块分别做了代码分析,最后通过集成Weka源码不同的模块功能和接口实现心血管健康状态等级预测。