论文部分内容阅读
贝叶斯分析方法是研究不确定性的一种方法,并用概率的大小来表示其不确定性,基于此方法建立的分类模型具有可解释性、准确率高等优点,目前在许多领域得到了广泛应用.而随着我国经济的快速发展,信用评估也逐渐成为当前值得关注的话题之一.针对信用评估数据的特点,本文提出了基于随机森林特征选择的贝叶斯分类模型,并选取UCI数据库中的German数据集进行实证分析,结果表明:基于随机森林特征选择的思想,不但使得贝叶斯分类模型的结构更加简单,而且其获得的分类效果更优.本文主要的工作和创新如下:(1)随机森林是一种能容忍噪声且稳定性较高的智能学习算法,基于此算法的特征选择可以进行特征变量筛选,删除其冗余不相关的特征属性,又考虑到具有良好分类效果的朴素贝叶斯模型,本文构建了基于随机森林特征选择的朴素贝叶斯分类模型(RF-NB).(2)在实际应用中,考虑到朴素贝叶斯的“独立性假设”往往不成立,为使模型更符合实际,树增强朴素贝叶斯模型可以更好的表示特征属性间存在的依赖关系,因此本文又构建了基于随机森林特征选择的树增强朴素贝叶斯分类模型(RF-TAN).(3)将基于随机森林特征选择的贝叶斯分类模型应用到German数据信用评估指导中去,用于验证所提出的RF-NB和RF-TAN分类模型的分类效果,并与未进行特征选择的NB模型和未进行特征选择的TAN模型进行实验对比.实验结果表明:RF-NB和RF-TAN模型的分类效果显然优于NB、TAN模型.