论文部分内容阅读
摘 要: 激烈的市场竞争需要有效的客户流失预测。客户流失预测可以看作是类别不平衡下的二分类问题,失衡数据的分类是数据挖掘领域的一大难题,集成策略是解决这一难题的常用方法之一。本论文通过开展集成模型实证研究尝试解决以下问题:剪枝是否能够为模型分类性能带来改善?经典的集成策略及在此基础上发展出的集成策略,在不平衡数据下的表现如何?此外,我们使用一个近期被提出的利润导向型评价指标。实验结果显示:模型的分类性能在不剪枝时要比剪枝时优秀;在不剪枝时,简单的装袋类模型普遍比复杂的提升类模型的分类效果更好。
关键词: 类别不平衡;客户流失预测;集成策略
【中图分类号】 TP182 【文献标识码】 A【文章编号】 2236-1879(2018)05-0204-02
1 绪论
当今激烈的市场竞争下,客户流失预测对企业发展有着重大意义。某公司客户流失是指该公司客户放弃了该公司服务,转而选择了与其为竞争关系的其他公司的服务。发展新客户的成本是维持已有客户的5-6倍,客户流失是企业的最大损失。流失预测的目的就是通过详尽的客户信息来识别潜在的流失行为和能够挽留的客户,制定客户保留计划。Neslin, S.A[1]的研究表明流失预测技术能够帮助公司以较小的成本进行更有效地客户关系管理,带来可观的后续回报。
真实市场环境下的客户流失通常是小概率事件,而传统分类技术多是基于类别相对平衡的数据开发的,在失衡数据上表现出难以忽视的缺陷:少数类的样本(流失客户)信息缺乏:很难发掘样本内部规律,或由于多数类样本比例过高,分类器倾向于把样本分类为多数类。
针对这一问题,数据层面,算法层面,集成策略等大量的研究都在积极地开展。本论文将聚焦于集成策略,将抽样嵌入经典集成策略袋装和提升进行比较研究,这是目前数据挖掘研究中所缺乏的一个版块。本论文中还会考虑每个模型在基分类器(决策树C4.5)剪枝和不剪枝情况下的分类性能,对是否应该剪枝给出建议,这是当前研究中忽略的另一问题。评估模型时,除了采用经典评价指标AUC,还使用了考虑成本收益比的EMP指标,从而能为流失预测模型提供一个更为客观切实的评估视角。
2 实验设计
2.1集成策略。
集成学习将多个弱模型通过一定的组合方式组合成一个强模型,从而减小类别不平衡给分类带来的误差。[2] 本研究中会对经典的装袋和提升策略及几种基于装袋和提升策略发展出的集成策略进行比较研究,参数设置依据该方法作者所作推荐。
2.1.1 基于装袋的集成策略。
装袋(Bagging)又叫自助聚集,是根据均匀概率分布从原始数据中随机重复抽样(有放回)的技术。各分类器的分类过程同步进行,最终的分类结果遵循多数分类器的分类决定。
除了经典装袋策略外,我们还将考虑UnderBagging和SMOTEBagging[3] 两种集成策略。在UnderBagging中,训练集是通过对多数类样本进行欠采样来创建的。SMOTEBagging训练集的构建过程涉及合成实例,由通过自助聚集从多数类样本中抽取的样本和通过过采样和SMOTE抽样从少数类样本中获得的样本组成。
参数设置为:三种策略袋装数N均为40,其中SMOTEBagging中的SMOTE抽样的最近邻数K为5。
2.1.2 基于提升的集成策略。
提升(Boosting)是一个迭代的过程,通过在每一轮提升结束时自动的调整样本或基分类器的权重获得更好的分类模型。最终的分类结果加权平均获得。
除了考虑经典的提升策略AdaBoost外,我们还考虑在此基础上发展出的策略RUSBoost和SMOTEBoost。RUSBoost策略每次迭代前,会对多数类样本进行随机欠采样处理。SMOTEBoost集成策略会每次迭代之前,使用SMOTE抽样方法对数据样本进行处理。
参数设置为:三种策略迭代数T均为40。
2.2 评价指标。
大量的研究指出,在对不平衡数据的学习中,评价指标的选择至关重要。当前研究通最常使用的评价指标为接收者操作特性曲线下面积(Area under the ROC curve,AUC),和提升指数(Top- decile lift)。但这两个指标都没有将模型预测结果带来的成本及收益考虑在内。而近期被提出的EMP指标,从成本收益比的角度对模型进行评价,因此具有很高的市场指导意义。
因此本论文将采用AUC和EMP两个评价指标。
2.2.1 AUC指标。
指标AUC可以被表示为
其中t为阈限值,TPR真正率(True positive rate)= TP /(TP + FN) 即正样本预测结果数/正样本实际数,FPR假正率(False positive rate)= FP /(FP + TN)即被预测为正的负样本结果数/负样本实际数。AUC通過积分将模型的效果评估转换为更为直观的数值。
2.2.2 EMP指标。
这种将成本收益比纳入考量的EMP指标由Vrbrak[4] 提出。具体计算方法如下:
EMP = (2)
h(Y)为概率密度函数,其中 γ为一个潜在流失客户接受公司挽留利好并留下(继续购买该公司产品或服务)的概率,CLV为客户生命周期价值,δ为公司给出的挽留利好,φ为公司接触客户所付出的成本。对于一个γ值,T(γ)为最佳阈限值,为对应的最大利润。根据文献以及和通讯行业专家探讨,我们将EMP中的参数CLV,δ,c分别设置为200,10,1,B(α,β)中的两个参数设置为6和14。
2.3 实验设置。
本实验采用5×2的交叉验证实验设计,经过数据处理后的数据集被分为两个大小相同的子集。第一个子集作为训练集构建模型,模型的参数由重复训练得到。第二个子集则作为测试集测试模型的效果,得出相应评价指标值。然后两个子集的角色互换,重复以上过程5次,得到一个评价指标值的平均值,则作为最后的结果。实验由R语言实施。 本實验采用了9个通讯行业的数据集,均为来源于权威数据库(Operator, UCI ML repository)的真实客户数据,客户流失率的变化范围为3.96% 到14.5%。
3 结果分析
本节中我们将对实验结果进行统计和初步分析,步骤如下:(1)对每种方法下剪枝和不剪枝模型的分类性能进行汇总分析;(2)进行Friedman检验,若Friedman结果表现出各集成策略分类效果是有差异的,我们就进行后验检验。
我们将每一种集成策略下,9个数据集的分类效果进行汇总,若一个数据集分类效果剪枝优于不剪枝,则左边加1,若不剪枝优于剪枝,则右边加1,“/”左边和右边相加为9,结果如下:
就AUC指标而言:Bagging策略:0/9;SMOTEBagging策略:3/6;UnderBagging策略:2/7;Boosting策略:6/3;RUSBoost策略:6/3;SMOTEBoost策略:3/6。
就EMP指标而言:Bagging策略:3/6;SMOTEBagging策略:3/6;UnderBagging策略:1/8;Boosting策略:4/5;RUSBoost策略:7/2;SMOTEBoost策略:3/6。
两个指标下都只有一种集成策略的(RUSBoost)分类效果剪枝优于不剪枝。剪枝的初衷虽是为了防止决策树过度拟合,但并不总能为模型分类性能带来改善,大多数情况下,不剪枝的效果更好。
接下来我们对不剪枝情况下各集成策略的分类性能进行分析。首先进行Friedman检验。结果显示AUC和EMP指标下Friedman检验的p值在α=0.1或0.05下均有统计的显著性差异,说明各集成策略的分类效果是有差异的,可进一步进行后验检验。
上图为Holm检验结果汇总,从中可看出,两种指标下占据排序前三位的均为装袋类策略,而后三位均为提升类策略,且两类策略的分类效果有显著差异。更为简单的袋装类策略其实大多数情况下反而要比复杂且成本更高的提升类策略表现出更好的分类效果。在集成策略中嵌入抽样方法对类别不平衡的改善效果能够有效地在用AUC进行模型评价时体现出来。就EMP指标而言,最优策略是最简单的集成策略Bagging。
References:
[1] Neslin, S.A., Defection Detection: Improving Predictive Accuracy of Customer Churn Models. 2004.
[2] Galar, M., et al., A Review on Ensembles for the Class Imbalance Problem: Bagging-, Boosting-, and Hybrid-Based Approaches. IEEE Transactions on Systems Man & Cybernetics Part C, 2012. 42(4): p. 463-484.
[3] Wang, S. and X. Yao. Diversity analysis on imbalanced data sets by using ensemble models. in Computational Intelligence and Data Mining, 2009. CIDM '09. IEEE Symposium on. 2009.
[4] Verbraken, T., W. Verbeke and B. Baesens, A Novel Profit Maximizing Metric for Measuring Classification Performance of Customer Churn Prediction Models. IEEE Transactions on Knowledge & Data Engineering, 2013. 25(5): p. 961-973.
关键词: 类别不平衡;客户流失预测;集成策略
【中图分类号】 TP182 【文献标识码】 A【文章编号】 2236-1879(2018)05-0204-02
1 绪论
当今激烈的市场竞争下,客户流失预测对企业发展有着重大意义。某公司客户流失是指该公司客户放弃了该公司服务,转而选择了与其为竞争关系的其他公司的服务。发展新客户的成本是维持已有客户的5-6倍,客户流失是企业的最大损失。流失预测的目的就是通过详尽的客户信息来识别潜在的流失行为和能够挽留的客户,制定客户保留计划。Neslin, S.A[1]的研究表明流失预测技术能够帮助公司以较小的成本进行更有效地客户关系管理,带来可观的后续回报。
真实市场环境下的客户流失通常是小概率事件,而传统分类技术多是基于类别相对平衡的数据开发的,在失衡数据上表现出难以忽视的缺陷:少数类的样本(流失客户)信息缺乏:很难发掘样本内部规律,或由于多数类样本比例过高,分类器倾向于把样本分类为多数类。
针对这一问题,数据层面,算法层面,集成策略等大量的研究都在积极地开展。本论文将聚焦于集成策略,将抽样嵌入经典集成策略袋装和提升进行比较研究,这是目前数据挖掘研究中所缺乏的一个版块。本论文中还会考虑每个模型在基分类器(决策树C4.5)剪枝和不剪枝情况下的分类性能,对是否应该剪枝给出建议,这是当前研究中忽略的另一问题。评估模型时,除了采用经典评价指标AUC,还使用了考虑成本收益比的EMP指标,从而能为流失预测模型提供一个更为客观切实的评估视角。
2 实验设计
2.1集成策略。
集成学习将多个弱模型通过一定的组合方式组合成一个强模型,从而减小类别不平衡给分类带来的误差。[2] 本研究中会对经典的装袋和提升策略及几种基于装袋和提升策略发展出的集成策略进行比较研究,参数设置依据该方法作者所作推荐。
2.1.1 基于装袋的集成策略。
装袋(Bagging)又叫自助聚集,是根据均匀概率分布从原始数据中随机重复抽样(有放回)的技术。各分类器的分类过程同步进行,最终的分类结果遵循多数分类器的分类决定。
除了经典装袋策略外,我们还将考虑UnderBagging和SMOTEBagging[3] 两种集成策略。在UnderBagging中,训练集是通过对多数类样本进行欠采样来创建的。SMOTEBagging训练集的构建过程涉及合成实例,由通过自助聚集从多数类样本中抽取的样本和通过过采样和SMOTE抽样从少数类样本中获得的样本组成。
参数设置为:三种策略袋装数N均为40,其中SMOTEBagging中的SMOTE抽样的最近邻数K为5。
2.1.2 基于提升的集成策略。
提升(Boosting)是一个迭代的过程,通过在每一轮提升结束时自动的调整样本或基分类器的权重获得更好的分类模型。最终的分类结果加权平均获得。
除了考虑经典的提升策略AdaBoost外,我们还考虑在此基础上发展出的策略RUSBoost和SMOTEBoost。RUSBoost策略每次迭代前,会对多数类样本进行随机欠采样处理。SMOTEBoost集成策略会每次迭代之前,使用SMOTE抽样方法对数据样本进行处理。
参数设置为:三种策略迭代数T均为40。
2.2 评价指标。
大量的研究指出,在对不平衡数据的学习中,评价指标的选择至关重要。当前研究通最常使用的评价指标为接收者操作特性曲线下面积(Area under the ROC curve,AUC),和提升指数(Top- decile lift)。但这两个指标都没有将模型预测结果带来的成本及收益考虑在内。而近期被提出的EMP指标,从成本收益比的角度对模型进行评价,因此具有很高的市场指导意义。
因此本论文将采用AUC和EMP两个评价指标。
2.2.1 AUC指标。
指标AUC可以被表示为
其中t为阈限值,TPR真正率(True positive rate)= TP /(TP + FN) 即正样本预测结果数/正样本实际数,FPR假正率(False positive rate)= FP /(FP + TN)即被预测为正的负样本结果数/负样本实际数。AUC通過积分将模型的效果评估转换为更为直观的数值。
2.2.2 EMP指标。
这种将成本收益比纳入考量的EMP指标由Vrbrak[4] 提出。具体计算方法如下:
EMP = (2)
h(Y)为概率密度函数,其中 γ为一个潜在流失客户接受公司挽留利好并留下(继续购买该公司产品或服务)的概率,CLV为客户生命周期价值,δ为公司给出的挽留利好,φ为公司接触客户所付出的成本。对于一个γ值,T(γ)为最佳阈限值,为对应的最大利润。根据文献以及和通讯行业专家探讨,我们将EMP中的参数CLV,δ,c分别设置为200,10,1,B(α,β)中的两个参数设置为6和14。
2.3 实验设置。
本实验采用5×2的交叉验证实验设计,经过数据处理后的数据集被分为两个大小相同的子集。第一个子集作为训练集构建模型,模型的参数由重复训练得到。第二个子集则作为测试集测试模型的效果,得出相应评价指标值。然后两个子集的角色互换,重复以上过程5次,得到一个评价指标值的平均值,则作为最后的结果。实验由R语言实施。 本實验采用了9个通讯行业的数据集,均为来源于权威数据库(Operator, UCI ML repository)的真实客户数据,客户流失率的变化范围为3.96% 到14.5%。
3 结果分析
本节中我们将对实验结果进行统计和初步分析,步骤如下:(1)对每种方法下剪枝和不剪枝模型的分类性能进行汇总分析;(2)进行Friedman检验,若Friedman结果表现出各集成策略分类效果是有差异的,我们就进行后验检验。
我们将每一种集成策略下,9个数据集的分类效果进行汇总,若一个数据集分类效果剪枝优于不剪枝,则左边加1,若不剪枝优于剪枝,则右边加1,“/”左边和右边相加为9,结果如下:
就AUC指标而言:Bagging策略:0/9;SMOTEBagging策略:3/6;UnderBagging策略:2/7;Boosting策略:6/3;RUSBoost策略:6/3;SMOTEBoost策略:3/6。
就EMP指标而言:Bagging策略:3/6;SMOTEBagging策略:3/6;UnderBagging策略:1/8;Boosting策略:4/5;RUSBoost策略:7/2;SMOTEBoost策略:3/6。
两个指标下都只有一种集成策略的(RUSBoost)分类效果剪枝优于不剪枝。剪枝的初衷虽是为了防止决策树过度拟合,但并不总能为模型分类性能带来改善,大多数情况下,不剪枝的效果更好。
接下来我们对不剪枝情况下各集成策略的分类性能进行分析。首先进行Friedman检验。结果显示AUC和EMP指标下Friedman检验的p值在α=0.1或0.05下均有统计的显著性差异,说明各集成策略的分类效果是有差异的,可进一步进行后验检验。
上图为Holm检验结果汇总,从中可看出,两种指标下占据排序前三位的均为装袋类策略,而后三位均为提升类策略,且两类策略的分类效果有显著差异。更为简单的袋装类策略其实大多数情况下反而要比复杂且成本更高的提升类策略表现出更好的分类效果。在集成策略中嵌入抽样方法对类别不平衡的改善效果能够有效地在用AUC进行模型评价时体现出来。就EMP指标而言,最优策略是最简单的集成策略Bagging。
References:
[1] Neslin, S.A., Defection Detection: Improving Predictive Accuracy of Customer Churn Models. 2004.
[2] Galar, M., et al., A Review on Ensembles for the Class Imbalance Problem: Bagging-, Boosting-, and Hybrid-Based Approaches. IEEE Transactions on Systems Man & Cybernetics Part C, 2012. 42(4): p. 463-484.
[3] Wang, S. and X. Yao. Diversity analysis on imbalanced data sets by using ensemble models. in Computational Intelligence and Data Mining, 2009. CIDM '09. IEEE Symposium on. 2009.
[4] Verbraken, T., W. Verbeke and B. Baesens, A Novel Profit Maximizing Metric for Measuring Classification Performance of Customer Churn Prediction Models. IEEE Transactions on Knowledge & Data Engineering, 2013. 25(5): p. 961-973.