类别不平衡客户流失预测集成模型实证研究

来源 :科学导报·学术 | 被引量 : 0次 | 上传用户:mucao_xkhl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要: 激烈的市场竞争需要有效的客户流失预测。客户流失预测可以看作是类别不平衡下的二分类问题,失衡数据的分类是数据挖掘领域的一大难题,集成策略是解决这一难题的常用方法之一。本论文通过开展集成模型实证研究尝试解决以下问题:剪枝是否能够为模型分类性能带来改善?经典的集成策略及在此基础上发展出的集成策略,在不平衡数据下的表现如何?此外,我们使用一个近期被提出的利润导向型评价指标。实验结果显示:模型的分类性能在不剪枝时要比剪枝时优秀;在不剪枝时,简单的装袋类模型普遍比复杂的提升类模型的分类效果更好。
  关键词: 类别不平衡;客户流失预测;集成策略
  【中图分类号】 TP182 【文献标识码】 A【文章编号】 2236-1879(2018)05-0204-02
  1 绪论
  当今激烈的市场竞争下,客户流失预测对企业发展有着重大意义。某公司客户流失是指该公司客户放弃了该公司服务,转而选择了与其为竞争关系的其他公司的服务。发展新客户的成本是维持已有客户的5-6倍,客户流失是企业的最大损失。流失预测的目的就是通过详尽的客户信息来识别潜在的流失行为和能够挽留的客户,制定客户保留计划。Neslin, S.A[1]的研究表明流失预测技术能够帮助公司以较小的成本进行更有效地客户关系管理,带来可观的后续回报。
  真实市场环境下的客户流失通常是小概率事件,而传统分类技术多是基于类别相对平衡的数据开发的,在失衡数据上表现出难以忽视的缺陷:少数类的样本(流失客户)信息缺乏:很难发掘样本内部规律,或由于多数类样本比例过高,分类器倾向于把样本分类为多数类。
  针对这一问题,数据层面,算法层面,集成策略等大量的研究都在积极地开展。本论文将聚焦于集成策略,将抽样嵌入经典集成策略袋装和提升进行比较研究,这是目前数据挖掘研究中所缺乏的一个版块。本论文中还会考虑每个模型在基分类器(决策树C4.5)剪枝和不剪枝情况下的分类性能,对是否应该剪枝给出建议,这是当前研究中忽略的另一问题。评估模型时,除了采用经典评价指标AUC,还使用了考虑成本收益比的EMP指标,从而能为流失预测模型提供一个更为客观切实的评估视角。
  2 实验设计
  2.1集成策略。
  集成学习将多个弱模型通过一定的组合方式组合成一个强模型,从而减小类别不平衡给分类带来的误差。[2] 本研究中会对经典的装袋和提升策略及几种基于装袋和提升策略发展出的集成策略进行比较研究,参数设置依据该方法作者所作推荐。
  2.1.1 基于装袋的集成策略。
  装袋(Bagging)又叫自助聚集,是根据均匀概率分布从原始数据中随机重复抽样(有放回)的技术。各分类器的分类过程同步进行,最终的分类结果遵循多数分类器的分类决定。
  除了经典装袋策略外,我们还将考虑UnderBagging和SMOTEBagging[3] 两种集成策略。在UnderBagging中,训练集是通过对多数类样本进行欠采样来创建的。SMOTEBagging训练集的构建过程涉及合成实例,由通过自助聚集从多数类样本中抽取的样本和通过过采样和SMOTE抽样从少数类样本中获得的样本组成。
  参数设置为:三种策略袋装数N均为40,其中SMOTEBagging中的SMOTE抽样的最近邻数K为5。
  2.1.2 基于提升的集成策略。
  提升(Boosting)是一个迭代的过程,通过在每一轮提升结束时自动的调整样本或基分类器的权重获得更好的分类模型。最终的分类结果加权平均获得。
  除了考虑经典的提升策略AdaBoost外,我们还考虑在此基础上发展出的策略RUSBoost和SMOTEBoost。RUSBoost策略每次迭代前,会对多数类样本进行随机欠采样处理。SMOTEBoost集成策略会每次迭代之前,使用SMOTE抽样方法对数据样本进行处理。
  参数设置为:三种策略迭代数T均为40。
  2.2 评价指标。
  大量的研究指出,在对不平衡数据的学习中,评价指标的选择至关重要。当前研究通最常使用的评价指标为接收者操作特性曲线下面积(Area under the ROC curve,AUC),和提升指数(Top- decile lift)。但这两个指标都没有将模型预测结果带来的成本及收益考虑在内。而近期被提出的EMP指标,从成本收益比的角度对模型进行评价,因此具有很高的市场指导意义。
  因此本论文将采用AUC和EMP两个评价指标。
  2.2.1 AUC指标。
  指标AUC可以被表示为
  其中t为阈限值,TPR真正率(True positive rate)= TP /(TP + FN) 即正样本预测结果数/正样本实际数,FPR假正率(False positive rate)= FP /(FP + TN)即被预测为正的负样本结果数/负样本实际数。AUC通過积分将模型的效果评估转换为更为直观的数值。
  2.2.2 EMP指标。
  这种将成本收益比纳入考量的EMP指标由Vrbrak[4] 提出。具体计算方法如下:
  EMP = (2)
  h(Y)为概率密度函数,其中 γ为一个潜在流失客户接受公司挽留利好并留下(继续购买该公司产品或服务)的概率,CLV为客户生命周期价值,δ为公司给出的挽留利好,φ为公司接触客户所付出的成本。对于一个γ值,T(γ)为最佳阈限值,为对应的最大利润。根据文献以及和通讯行业专家探讨,我们将EMP中的参数CLV,δ,c分别设置为200,10,1,B(α,β)中的两个参数设置为6和14。
  2.3 实验设置。
  本实验采用5×2的交叉验证实验设计,经过数据处理后的数据集被分为两个大小相同的子集。第一个子集作为训练集构建模型,模型的参数由重复训练得到。第二个子集则作为测试集测试模型的效果,得出相应评价指标值。然后两个子集的角色互换,重复以上过程5次,得到一个评价指标值的平均值,则作为最后的结果。实验由R语言实施。   本實验采用了9个通讯行业的数据集,均为来源于权威数据库(Operator, UCI ML repository)的真实客户数据,客户流失率的变化范围为3.96% 到14.5%。
  3 结果分析
  本节中我们将对实验结果进行统计和初步分析,步骤如下:(1)对每种方法下剪枝和不剪枝模型的分类性能进行汇总分析;(2)进行Friedman检验,若Friedman结果表现出各集成策略分类效果是有差异的,我们就进行后验检验。
  我们将每一种集成策略下,9个数据集的分类效果进行汇总,若一个数据集分类效果剪枝优于不剪枝,则左边加1,若不剪枝优于剪枝,则右边加1,“/”左边和右边相加为9,结果如下:
  就AUC指标而言:Bagging策略:0/9;SMOTEBagging策略:3/6;UnderBagging策略:2/7;Boosting策略:6/3;RUSBoost策略:6/3;SMOTEBoost策略:3/6。
  就EMP指标而言:Bagging策略:3/6;SMOTEBagging策略:3/6;UnderBagging策略:1/8;Boosting策略:4/5;RUSBoost策略:7/2;SMOTEBoost策略:3/6。
  两个指标下都只有一种集成策略的(RUSBoost)分类效果剪枝优于不剪枝。剪枝的初衷虽是为了防止决策树过度拟合,但并不总能为模型分类性能带来改善,大多数情况下,不剪枝的效果更好。
  接下来我们对不剪枝情况下各集成策略的分类性能进行分析。首先进行Friedman检验。结果显示AUC和EMP指标下Friedman检验的p值在α=0.1或0.05下均有统计的显著性差异,说明各集成策略的分类效果是有差异的,可进一步进行后验检验。
  上图为Holm检验结果汇总,从中可看出,两种指标下占据排序前三位的均为装袋类策略,而后三位均为提升类策略,且两类策略的分类效果有显著差异。更为简单的袋装类策略其实大多数情况下反而要比复杂且成本更高的提升类策略表现出更好的分类效果。在集成策略中嵌入抽样方法对类别不平衡的改善效果能够有效地在用AUC进行模型评价时体现出来。就EMP指标而言,最优策略是最简单的集成策略Bagging。
  References:
  [1] Neslin, S.A., Defection Detection: Improving Predictive Accuracy of Customer Churn Models. 2004.
  [2] Galar, M., et al., A Review on Ensembles for the Class Imbalance Problem: Bagging-, Boosting-, and Hybrid-Based Approaches. IEEE Transactions on Systems Man & Cybernetics Part C, 2012. 42(4): p. 463-484.
  [3] Wang, S. and X. Yao. Diversity analysis on imbalanced data sets by using ensemble models. in Computational Intelligence and Data Mining, 2009. CIDM '09. IEEE Symposium on. 2009.
  [4] Verbraken, T., W. Verbeke and B. Baesens, A Novel Profit Maximizing Metric for Measuring Classification Performance of Customer Churn Prediction Models. IEEE Transactions on Knowledge & Data Engineering, 2013. 25(5): p. 961-973.
其他文献
摘 要: 本文对我国加油站的管理和营销工作现状、当前营销工作中的難点、国内成品油市场的变化及未来发展趋势进行分析,并结合我国能源行业的发展需求以及国家经济战略的调整及发展趋势,对我国加油站营销工作策略提出建议。  关键词: 加油站;营销工作;研究;对策  【中图分类号】 F426 【文献标识码】 A【文章编号】 2236-1879(2018)05-0234-02  1.当前我国加油站营销工作的现状
期刊
摘 要: 2016年,中央要求全面从严治党向基层延伸,并在全体党员中开展“两学一做”学习教育,两年多的实践证明,“两学一做”学习教育是党内教育的好形式,是全面从严治党中的党建新创举,是开展党建工作的新抓手。“以永远在路上的执着把全面从严治党引向深入,开创全面从严治党新局面。”习近平总书记在十九届中央纪委二次全会上发表重要讲话,从新时代党和国家事业发展全局的高度,深刻阐述了十九大关于全面从严治党的战
期刊
摘 要: 现今社会已经正式步入信息化时代,各行各业都在大力发展信息化产业,教育也不例外,中职体育作为学校教育的重要组成部分,对提高准职业人的身心素质起着不可估量的作用。如何加快信息技术在体育学科的运用?如何推进体育信息化教学?这是值得我们深思的问题。从中职体育信息化教学的必要性、现状出发,探讨如何在中职体育教学中实施信息化教学。  关键词: 信息化教学;信息技术;体育教学  【中图分类号】 G42
期刊
【中图分类号】 R473.6 【文献标识码】 A【文章编号】 2236-1879(2018)05-0289-01  关节功能障碍病人的心理护理应由医生、护士和家属共同进行。包括以下几点:  (1)充分尊重病人的知情权 病人在去医生那里后想了解的第一个问题是他们患的是什么疾病。病原学、病理过程、转归、预后、正确、适度的医学知识教育,提高了患者对疾病的認识。有必要消除紧张、焦虑、不必要的恐惧和偏执的妄
期刊
摘 要: 建筑行业的快速发展为提升我国国民经济的水平以及人们的生活质量有着突出的贡献。随着工程建设项目的逐渐增多,工程质量要求的越发严格,使得施工中机械设备使用的频率和种类也在不断的增加。所以,在施工过程中,为了提升施工的效率,降低施工中危险事故发生的概率,就需要对施工中机械设备的使用进行严格的管理,在保证运转正常的前提下,提升设备功能性的充分发挥,同时,还要加强施工设备维修和养护的效率,增加其施
期刊
【中图分类号】 R224.1 【文献标识码】 A【文章编号】 2236-1879(2018)05-0303-01  从临床上可以看出,肩关节疾病在老年人中较为常见,特别是在肩关节的退行性疾病中,尤其是老年人,这是为什么呢?  首先肩关节疾病与肩关节过多活动有关。肩部结构复杂,活动范围大,经常承受来自各个方向的创伤外力,易受损伤,一些职业,对肩部活动要求既稳定,又灵活,且需保持一定的姿势,如打字员就
期刊
摘 要: 市场经济的迅速发展,推动着我国各行业的不断进步。国有资源在我国的应用范围十分广泛,同时人们生产、生活中对国有资源的需求量也在日益增多,这就给国有企业带来了良好的发展机遇与更为广阔的发展前景。但在市场竞争日趋激烈、竞争环境日趋复杂的背景下,国有企业也面临着越来越严峻的挑战。面对这样的现象,国有企业应进一步加强政工干部素质建设工作,实现职工向心力、企业凝聚力的提升。本文主要探讨了国有企业政工
期刊
摘 要: 目前,国家越来越重视职业教育。而在职业教育过程中,对口升学也为我们中职的孩子走向更高学府敞开了一扇亮窗。和普高的升学考试相比,职业中学的孩子们更是既向往又胆怯。因为可以通过对口升学,学生学生们可以证明自己的艰辛和努力,可以走入自己理想的大学,可以在自己人生道路中找到新的转折点,所以他们向往。又因在求学的途中,本来就存在层次的差异,环境的差异,基础知识的差异,所以对口升学又会让我们中职的孩
期刊
摘 要: 基层党支部是党的细胞,是党的全部工作和战斗力基础。如何加强企业基层党支部建设,发挥好基层党支部的战斗堡垒作用,是一个常抓常新的课题。本文结合某国有企业下属幼儿园党支部探索应用创建党建品牌的方式推动基层党建工作的实践,明确了品牌创建意义、指出了品牌创建过程中出现的问题、提供了品牌创建建议和思考。  关键词: 国有企业;基层党支部;党建品牌创建  【中图分类号】 D267 【文献标识码】 A
期刊
摘 要: 水资源是人们赖以生存的重要资源,目前我国水资源呈现出较为匮乏的局面,许多地区都面临着水资源紧缺的问题。海绵城市是有效解决水资源短缺问题的重要措施,在建设海绵城市理念的基础上,加强对雨水的利用和规划,能够进一步解决我国水资源短缺问题,进而提高水资源的利用率,实现循环利用,推动我国城市化发展进程。  关键词: 海綿城市;建设理念;雨排水;高效利用  【中图分类号】 TU992 【文献标识码】
期刊