基于数据挖掘的保险业数据预处理方法应用研究

来源 :中国人民大学 | 被引量 : 0次 | 上传用户:jin226330
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文是基于数据挖掘的数据预处理方法在保险业客户识别中的理论研究和实证分析。首先,介绍了数据挖掘的基本流程,然后对数据进行了预处理,并采用支持向量机、K近邻和朴素贝叶斯三种算法来对销售机会进行识别,最后对三种分类器的结果进行了组合。   在保险业的客户数据库中包含人口统计学数据和客户的保险产品交易记录两方面的信息。这些信息维度众多,存在着大量的噪音数据,同时存在严重不平衡的问题,这导致了直接应用传统数据挖掘算法效果不是很理想。   在数据预处理中,本文采用属性选择的方法有效避免了维数众多带来的问题;同时把训练数据分为了冗余数据(redundant)、边缘数据(borderline)、噪音数据(noise)和安全数据(safe)四部分,并通过单侧抽样(one-sidedsampling)的方法来去除前三类数据,用剩余的安全数据部分进行数据挖掘;针对数据不平衡的问题,采用欠抽样(under-sampling)的方法来进行抽样。通过实验、比较,我们发现在本案例中当从多数类中抽取20%的样本时可以在有效克服样本不平衡的问题的同时取得较好的预测效果;SVM在三个分类器中表现最好,其次是KNN,最后是朴素贝叶斯;在KNN算法中,K取值比较大,即150左右时,可以保证模型在训练集和测试集上同时取得比较好的效果;在朴素贝叶斯算法中,抽样会导致结果极其不稳定,因此没有采用欠抽样(under-sampling)的方法来进行数据挖掘,同时发现在阙值取0.01时朴素贝叶斯分类器的分类效果最好;最后,发现用逻辑斯特模型对分类器进行组合的效果要明显优于投票法。
其他文献
随着巴塞尔新资本协议正式将操作风险管理纳入全面风险管理框架之中,并明确规定银行需要为操作风险计提监管资本金,国际银行业开始日益重视操作风险的度量与管理。越来越多的
学位
为提高杏鲍菇(Pleurotus eryngii)蛋白质的提取率,本试验采用纤维素酶解复合碱提酸沉法进行提取,以料液比、酶的添加量、反应时间和温度为因素进行单因素试验,蛋白质提取率为
以龙麦33和克旱19 2个春小麦品种为材料,于齐穗后0d、5d、10d分别喷施5%蔗糖和2%尿素,研究了外源碳氮对这两个春小麦品种旗叶和籽粒的可溶性糖含量变化、籽粒灌浆速率及产量
期刊
绿色概念、绿色思想早已在化学新课改下逐渐渗透到化学教学中,俨然成为当今新形势下教学内容的领军者。教师对新形势下的化学教学,应向高中生全面推广绿色环保化学本质,从而
<正>2017开年之初,观众们就被中央电视台陆续开播的两档传统文化类电视栏目《中国诗词大会》(第二季)、《朗读者》强力圈粉。从微博上的持续热搜热议到微信朋友圈里的大量转
城市规划作为当前与百姓切身利益关系密切的公共政策,其公共参与的开展是构建社会主义和谐社会、促进城市规划科学化的一项要求,同时随着我国法律制度的完善,也是对城市规划民主
学位
资产证券化作为金融创新产品之一,自20世纪70年代诞生以来,因其能够起到转嫁风险和增强流动性的作用,在世界范围内迅速发展起来。我国自20世纪90年代,开始进行资产证券化的有
学位
无论是从国际大气候还是从国内小气候来看,习近平总书记的“2·19”讲话都为深入推进媒体融合做了适时的背书,标志着这一趋势已经从微观的内容产品层面和中观的体制机构层面,
云蔗05-51是云南省农业科学院甘蔗研究所经多年试验选育而成的甘蔗优良新品种。该品种早熟、高产高糖、稳产,脱叶性好,57号毛群极少,宿根性强。国家甘蔗品种区域化试验和生产