数据挖掘分类算法的研究和应用

来源 :电子科技大学 | 被引量 : 28次 | 上传用户:liuliang82
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,人们的活动产生了海量的数据,数据挖掘是从海量数据中发掘有价值信息的重要手段,在实际生活中得到了广泛的应用。数据挖掘分类算法作为数据挖掘中最为关键的技术,能够解决实际生活中出现最多的分类问题,因此吸引了学术界和工业界的广泛关注,在政治、经济、交通、生活等领域发挥越来越重要的作用。本文主要工作是对数据挖掘分类算法的研究以及在实际数据集上进行算法实验,并利用集成学习算法解决人寿保险风险等级评估问题。首先,本文介绍了课题研究的背景和意义以及数据挖掘技术在国内外的研究现状,并对数据挖掘的相关理论进行概述,重点分析了数据预处理、特征工程、分类算法性能评估、类别不平衡问题和多分类问题。其次,本文研究了数据挖掘中常见分类算法。经典分类算法部分重点研究了朴素贝叶斯算法、逻辑回归算法、K-最近邻算法、支持向量机算法和决策树算法,给出了每个算法的基本原理、算法实现步骤和算法的优缺点。集成学习算法部分重点介绍了Bagging方法及其代表算法随机森林算法,Boosting方法及其代表算法GBDT算法和xgboost算法。在三个不同规模的公开数据集上实现这些算法,进行算法实验,通过对比分析得出:随着数据集规模的扩大,集成学习算法相比经典分类算法在数据集上有更加优秀的表现。最后,建立基于集成学习分类算法的人寿保险风险等级评估模型,将集成学习分类算法应用到人寿保险风险等级评估这一实际问题的解决上。通过对人寿保险数据的预处理和特征工程,得到建立算法模型所需的数据集。将数据集划分为训练集和测试集,并给出在测试集上的评级指标Kappa值。在训练集上训练集成学习算法模型,包括用于特征筛选的随机森林模型和用于建立人寿保险风险等级评估的xgboost模型。为了提高预测的Kappa值,使用了模型融合技术,并对模型输出结果进行优化,最终得到了一个最优的人寿保险等级预测综合模型,有效的解决了人寿保险风险等级预测这一实际问题。
其他文献
本文基于CCA方法测度我国商业银行的个体风险,利用POT-Copula方法考察危机时期银行间违约相关性的变化,并对商业银行的系统性风险贡献及其影响因素进行实证分析。结果表明:在
<正>白鹤滩水电站大坝工程智能建造科研项目招标工作于2016年3月启动,经过招标文件编制、招标、评标、三峡集团党组决标、公示等环节,历时一年半之久,经公开招标,中国水科院
为研究S型轨迹无碳小车的运动特性,进而对其进行优化设计及调整。通过对利用连杆机构实现转向的S型轨迹无碳小车转向机构的运动特性进行研究,建立了曲柄转角与前轮转角的数学
<正>~~
会议
羁押不是独立的刑事强制措施,它是逮捕后的必然结果,具有预支刑罚的性质,而且有悖于无罪推定这一基本原则。长期以来,高羁押率在我国司法实践中备受诟病。为限制羁押适用范围
随着现代科学技术发展进步,数字化学习型社区已成为教育发展的重要方向。通过开展社区教育,教育覆盖面和辐射范围大幅增加,教育影响力更为广泛。要想加快数字化学习型社区建
错颌畸形是目前危害人类健康的第三大口腔疾病,固定矫治是一种常用且有效的正畸治疗手段,其中矫治弓丝的弯制是重要部分。机器人以其精确的位姿控制和刚性保持能力可以克服弓
目的构建小鼠IL-12和粒细胞-巨噬细胞集落刺激因子(GM-CSF)真核表达载体PBI-CMV3-IL-12和PBICMV3-GM-CSF,转染H22肝癌细胞,检测IL-12和GM-CSF在肝癌细胞中的表达。方法 Trizo
<正>2018年6月5日,北京华夏建龙矿业科技有限公司投资建设的本溪龙新矿业有限公司思山岭铁矿基建期间,措施井井口发生炸药爆炸事故,造成14人死亡,10人受伤,直接经济损失约4 7