论文部分内容阅读
本文是基于数据挖掘的数据预处理方法在保险业客户识别中的理论研究和实证分析。首先,介绍了数据挖掘的基本流程,然后对数据进行了预处理,并采用支持向量机、K近邻和朴素贝叶斯三种算法来对销售机会进行识别,最后对三种分类器的结果进行了组合。
在保险业的客户数据库中包含人口统计学数据和客户的保险产品交易记录两方面的信息。这些信息维度众多,存在着大量的噪音数据,同时存在严重不平衡的问题,这导致了直接应用传统数据挖掘算法效果不是很理想。
在数据预处理中,本文采用属性选择的方法有效避免了维数众多带来的问题;同时把训练数据分为了冗余数据(redundant)、边缘数据(borderline)、噪音数据(noise)和安全数据(safe)四部分,并通过单侧抽样(one-sidedsampling)的方法来去除前三类数据,用剩余的安全数据部分进行数据挖掘;针对数据不平衡的问题,采用欠抽样(under-sampling)的方法来进行抽样。通过实验、比较,我们发现在本案例中当从多数类中抽取20%的样本时可以在有效克服样本不平衡的问题的同时取得较好的预测效果;SVM在三个分类器中表现最好,其次是KNN,最后是朴素贝叶斯;在KNN算法中,K取值比较大,即150左右时,可以保证模型在训练集和测试集上同时取得比较好的效果;在朴素贝叶斯算法中,抽样会导致结果极其不稳定,因此没有采用欠抽样(under-sampling)的方法来进行数据挖掘,同时发现在阙值取0.01时朴素贝叶斯分类器的分类效果最好;最后,发现用逻辑斯特模型对分类器进行组合的效果要明显优于投票法。