论文部分内容阅读
随着信息技术的发展,人们的活动产生了海量的数据,数据挖掘是从海量数据中发掘有价值信息的重要手段,在实际生活中得到了广泛的应用。数据挖掘分类算法作为数据挖掘中最为关键的技术,能够解决实际生活中出现最多的分类问题,因此吸引了学术界和工业界的广泛关注,在政治、经济、交通、生活等领域发挥越来越重要的作用。本文主要工作是对数据挖掘分类算法的研究以及在实际数据集上进行算法实验,并利用集成学习算法解决人寿保险风险等级评估问题。首先,本文介绍了课题研究的背景和意义以及数据挖掘技术在国内外的研究现状,并对数据挖掘的相关理论进行概述,重点分析了数据预处理、特征工程、分类算法性能评估、类别不平衡问题和多分类问题。其次,本文研究了数据挖掘中常见分类算法。经典分类算法部分重点研究了朴素贝叶斯算法、逻辑回归算法、K-最近邻算法、支持向量机算法和决策树算法,给出了每个算法的基本原理、算法实现步骤和算法的优缺点。集成学习算法部分重点介绍了Bagging方法及其代表算法随机森林算法,Boosting方法及其代表算法GBDT算法和xgboost算法。在三个不同规模的公开数据集上实现这些算法,进行算法实验,通过对比分析得出:随着数据集规模的扩大,集成学习算法相比经典分类算法在数据集上有更加优秀的表现。最后,建立基于集成学习分类算法的人寿保险风险等级评估模型,将集成学习分类算法应用到人寿保险风险等级评估这一实际问题的解决上。通过对人寿保险数据的预处理和特征工程,得到建立算法模型所需的数据集。将数据集划分为训练集和测试集,并给出在测试集上的评级指标Kappa值。在训练集上训练集成学习算法模型,包括用于特征筛选的随机森林模型和用于建立人寿保险风险等级评估的xgboost模型。为了提高预测的Kappa值,使用了模型融合技术,并对模型输出结果进行优化,最终得到了一个最优的人寿保险等级预测综合模型,有效的解决了人寿保险风险等级预测这一实际问题。