论文部分内容阅读
摘要:随着“健康中国”政策的提出,医疗健康问题受到社会广泛关注。糖尿病作为一种慢性疾病对国民身体健康存在巨大的威胁,目前疾病辅助预测领域存在着疾病预测算法精确度不够高,预测算法未考虑到疾病误诊代价等问题。针对上述问题,本实验使用真实的医疗数据,对提出的随机森林与逻辑回归(RF-LR)改进算法进行疾病预测模型训练,将算法模型与LR算法、决策树算法和SVM算法进行对比测试。
關键词:疾病预测;随机森林;逻辑回归;SVM
0 引言
随着科学技术发展,现在我们处于一个高度信息化的社会,当然医疗领域也不例外。人们的医疗健康数据以电子病历[1]、健康信息档案[2]的形式被收集起来,医疗健康数据中蕴藏着的信息对于医学研究具有重要的意义。
糖尿病作为高发病率、低治疗率疾病,随着国民生活方式和饮食结构改变而严重威胁着患者的身体健康。为了更加科学、准确的预测糖尿病,提出了使用RF-LR改进算法的疾病预测模型。模型针对数据集构建预测模型,并将改进后的算法与其他疾病预测算法进行对比,验证本实验中改进的算法的有效性。
1 RF-LR改进算法的疾病预测模型构建
1.1 随机森林算法
随机森林算法可以通过对样本数据加入随机扰动的方式计算样本特征的重要性评分,样本特征的重要性评分可以说明该特征对于目标变量的重要性程度,因此可以使用随机森林的这一特点作为样本数据特征选择的评价标准[3]。
1.2 RF-LR算法模型
使用随机森林算法后,原始数据集中的每一个特征都会得到相应的特征重要性评分,根据这些评分特征将特征按照降序进行排列,然后使用SBS搜索策略逐次删除特征排序队列中排在最末位的特征,也就是特征集合中重要性最低的特征,每删除一个特征就计算一次预测的正确率,直到特征集合中的特征个数为零,最后输出能够使预测结果达到最好的特征子集。
基于RF-LR改进算法的疾病预测模型,将随机森林算法作为逻辑回归的前置预处理系统,将经过特征选择后的特征子集,作为逻辑回归算法的输入,接下来,在逻辑回归算法的损失函数中,考虑到误诊的代价是不同的,将患病预测未患病的代价[4],应该远大于将未患病预测为患病的代价,故而引入权重参数对逻辑回归算法进行改进。基于RF-LR改进算法的疾病预测流程如图1.1所示。
2 实验设计与分析
2.1 模型评估
我们以UCI网站的糖尿病合并视网膜病变数据集作为本实验数据来源。表中包含就诊患者的基本信息表、生化表、等多个表格,导致数据出现重复,同时数据里的属性中包含文字、异常值、空白值等,需要对数据集中的重复数据和缺失数据进行清洗、填补等工作。
为保证通过RF-LR改进算法训练模型的准确率,我们对算法模型预测结果进行评估。首先使用RF算法对样本进行样本特征的重要性进行评分,对数据集的特征排列使用列向后搜索方法,达到特征选择目的。为确保特征选择结果的客观性,采用10折交叉验证法。特征选择结果如图2.1。
由图2.1可看出,如果特征子集中的特征数量为8 时能够得到最小的OOB误差率,此时的特征子集是最优特征子集。
2.2 评价标准
作为算法的评价指标有精确率(Precision)、召回率(Recall)、F1值以及ROC曲线[5]。该实验使用糖尿病合并视网膜病变数据集,并同原始的LR算法、决策树算法和支持向量机算法进行实验对比。以上三种算法在疾病预测领域中有较多的应用。
RF-LR改进算法在图2.3中的ROC曲线中,较LR、决策树和SVM都有一定程度的提高。实验结果可以表明,本文所提出的基于RF的LR改进算法在疾病预测方面具有良好的效果。
3 结束语
本文基于RF-LR的改进算法完成了疾病预测模型的构建,同时结合糖尿病合并视网膜病变数据集进行模型的训练,采用多重指标对实验结果进行了评估。结果显示此算法得到的结果准确率、召回率等指标相对于应用较多的算法都有提高,说明本文提出的RF-LR改进算法在糖尿病预测中具有一定的优势。
参考文献:
[1] Thompson G.,O'Horo J C.,Pickering B W.,et al.Impact of the electronic medical record on mortality,length of stay,and cost in the hospital and ICU:a systematic review and metaanalysis[J].Critical Care Medicine,2015,43(6):1276.
[2] 苟梦野,赵文龙,杨美洁,等.基于电子健康档案相关研究现状、热点与前沿知识可视化分析[J].现代预防医学,2019,46(01):65-72.
[3] Qi Yanjun.Random forest for bioinformatics[J].Ensemble Machine Learning,2012:307-323.
[4] 万建武,杨明.代价敏感学习方法综述[J].软件学报,2020,31(01):113-136.
關键词:疾病预测;随机森林;逻辑回归;SVM
0 引言
随着科学技术发展,现在我们处于一个高度信息化的社会,当然医疗领域也不例外。人们的医疗健康数据以电子病历[1]、健康信息档案[2]的形式被收集起来,医疗健康数据中蕴藏着的信息对于医学研究具有重要的意义。
糖尿病作为高发病率、低治疗率疾病,随着国民生活方式和饮食结构改变而严重威胁着患者的身体健康。为了更加科学、准确的预测糖尿病,提出了使用RF-LR改进算法的疾病预测模型。模型针对数据集构建预测模型,并将改进后的算法与其他疾病预测算法进行对比,验证本实验中改进的算法的有效性。
1 RF-LR改进算法的疾病预测模型构建
1.1 随机森林算法
随机森林算法可以通过对样本数据加入随机扰动的方式计算样本特征的重要性评分,样本特征的重要性评分可以说明该特征对于目标变量的重要性程度,因此可以使用随机森林的这一特点作为样本数据特征选择的评价标准[3]。
1.2 RF-LR算法模型
使用随机森林算法后,原始数据集中的每一个特征都会得到相应的特征重要性评分,根据这些评分特征将特征按照降序进行排列,然后使用SBS搜索策略逐次删除特征排序队列中排在最末位的特征,也就是特征集合中重要性最低的特征,每删除一个特征就计算一次预测的正确率,直到特征集合中的特征个数为零,最后输出能够使预测结果达到最好的特征子集。
基于RF-LR改进算法的疾病预测模型,将随机森林算法作为逻辑回归的前置预处理系统,将经过特征选择后的特征子集,作为逻辑回归算法的输入,接下来,在逻辑回归算法的损失函数中,考虑到误诊的代价是不同的,将患病预测未患病的代价[4],应该远大于将未患病预测为患病的代价,故而引入权重参数对逻辑回归算法进行改进。基于RF-LR改进算法的疾病预测流程如图1.1所示。
2 实验设计与分析
2.1 模型评估
我们以UCI网站的糖尿病合并视网膜病变数据集作为本实验数据来源。表中包含就诊患者的基本信息表、生化表、等多个表格,导致数据出现重复,同时数据里的属性中包含文字、异常值、空白值等,需要对数据集中的重复数据和缺失数据进行清洗、填补等工作。
为保证通过RF-LR改进算法训练模型的准确率,我们对算法模型预测结果进行评估。首先使用RF算法对样本进行样本特征的重要性进行评分,对数据集的特征排列使用列向后搜索方法,达到特征选择目的。为确保特征选择结果的客观性,采用10折交叉验证法。特征选择结果如图2.1。
由图2.1可看出,如果特征子集中的特征数量为8 时能够得到最小的OOB误差率,此时的特征子集是最优特征子集。
2.2 评价标准
作为算法的评价指标有精确率(Precision)、召回率(Recall)、F1值以及ROC曲线[5]。该实验使用糖尿病合并视网膜病变数据集,并同原始的LR算法、决策树算法和支持向量机算法进行实验对比。以上三种算法在疾病预测领域中有较多的应用。
RF-LR改进算法在图2.3中的ROC曲线中,较LR、决策树和SVM都有一定程度的提高。实验结果可以表明,本文所提出的基于RF的LR改进算法在疾病预测方面具有良好的效果。
3 结束语
本文基于RF-LR的改进算法完成了疾病预测模型的构建,同时结合糖尿病合并视网膜病变数据集进行模型的训练,采用多重指标对实验结果进行了评估。结果显示此算法得到的结果准确率、召回率等指标相对于应用较多的算法都有提高,说明本文提出的RF-LR改进算法在糖尿病预测中具有一定的优势。
参考文献:
[1] Thompson G.,O'Horo J C.,Pickering B W.,et al.Impact of the electronic medical record on mortality,length of stay,and cost in the hospital and ICU:a systematic review and metaanalysis[J].Critical Care Medicine,2015,43(6):1276.
[2] 苟梦野,赵文龙,杨美洁,等.基于电子健康档案相关研究现状、热点与前沿知识可视化分析[J].现代预防医学,2019,46(01):65-72.
[3] Qi Yanjun.Random forest for bioinformatics[J].Ensemble Machine Learning,2012:307-323.
[4] 万建武,杨明.代价敏感学习方法综述[J].软件学报,2020,31(01):113-136.