论文部分内容阅读
分类算法的效果研究评价,一直以来都是一个热门的研究内容。在以往的研究中,我们发现大部分的内容都是针对同一种分类方法的不同算法进行研究,很少将数据挖掘分类方法与传统的离散选择模型结合起来用在同一问题的研究中。因此,在本文中,我们不仅选择了数据挖掘算法,还选择了离散选择模型对客户选择理财产品进行研究,并且,在使用数据挖掘算法时,选择不同的数据挖掘分类算法进行对比。在具体的实现过程中,在针对客户选择理财产品这个问题上,我们利用已有的研究结果,考虑到方法的适用性以及理论的成熟性,在数据挖掘算法中选择了决策树分类方法以及贝叶斯分类方法。在决策树分类方法中选择了决策树C5.0算法;在贝叶斯分类方法中,选择了朴素贝叶斯分类算法。在离散选择计量模型中,考虑到我们的数据为二元选择数据,因而选择了传统的标准二元logit模型。我们利用可得的银行客户理财产品的选择数据,分别使用决策树C5.0分类算法模型、朴素贝叶斯分类算法模型以及标准二元logit选择模型对其进行实证分析。基于三种方法的实证结果,利用组合预测理论,得到局部最优的组合预测模型,在优劣性的比较中,我们主要指标为模型的预测精度。在单一模型的实证方面,我们利用UCI数据库中的Bank数据集,随机将数据集按照7:3的比例分为训练集和测试集,为了剔除数据随机性分配的影响,我们使用同一训练集建立模型,相同测试集测试结果后发现,决策树C5.0分类算法、朴素贝叶斯算法以及二元logit模型在判别客户理财产品上的精确度分别为88.43%、89.48%以及87.51%。从模型分类结果上,我们可以看出这三个单一模型的精确度均在80%以上,精度较高,其中,朴素贝叶斯模型的模型结果最优,精度高达89.48%。随后,我们介绍了最小二乘加权、算术平均加权、方差倒数加权、均方倒数加权以及简单加权法这常用的五种用于模型组合的权重的计算方法。之后,以决策树C5.0模型结果、朴素贝叶斯模型结果以及二元logit模型的模型结果为基础,分别选择了最小二乘加权法、算术平均加权法、方差倒数加权法、均方倒数法以及简单加权法进行权重的计算,得到了五个新的组合模型。最后,在得到五个组合模型后,我们发现,在使用最小二乘加权法确定权重的模型中,二元logit模型的权重为负数,不符合我们的实际情况,因此,该最小二乘加权组合模型不予采用。简单加权法的模型精度不如单一模型,结果舍去,方差倒数加权结果与均方倒数加权结果一致,在比较算术平均加权模型与方差倒数加权模型的精度后,我们发现,算术平均加权的误判概率为10.09%,小于方差倒数加权模型的误判概率10.48%,即算术平均加权模型优于方差倒数加权模型与均方倒数模型,精确度更高。因此,我们选择算术平均加权模型作为我们的最优模型,精确度为89.91%,组合模型相比单个模型,精确度提高了0.43%。