论文部分内容阅读
摘要:及时识别具有离网倾向的客户对于宽带运营商具有十分重要的意义。本文以某市移动公司为例,针对不平衡移动数据,采用人工合成少数类过采样算法(SMOTE)进行重抽样,而后采用决策树、Adaboost两种分类算法构建离网预警模型,最终选取分类精度最高的SMOTE样本与Adaboost算法组合模型作为移动宽带客户离网预警模型,并据此为运营商提出相应建议。
关键字:不平衡样本;重抽样;Adaboost;离网预警模型
一、引言
随着“宽带中国”战略的实施,宽带建设已上升为国家战略性公共基础设施建设工程。宽带业务市场蒸蒸日上的同时,想要保持并扩大市场占有率和利润,宽带运营商必须在争取新客户的同时,也致力于保留既有用户。因此,建立宽带离网预警模型来准确有效地识别出“预离网”用户,根据特定用户的需求制定出个性化的营销方案,有效挽回客户显得尤为重要。然而,移动宽带客户行为数据存在在网客户和离网客户比例严重失衡,对不平衡的宽带离网用户数据进行重抽样则尤为必要。本文将运用人工合成少数类过抽样方法进行重抽样,以平衡移动宽带离网用户和在网用户数,在此基础上,通过决策树、Adaboost两种分类算法,构建移动宽带用户离网预警模型,发掘引致用户离网的重要因素。
二、移动宽带用户离网数据预处理
1、指标选取及数据预处理
移动宽带离网数据量较大,数据复杂程度较高,因此对移动宽带离网数据进行数据预处理是极为必要的。本文所用数据来自2017年1-3月某省移动公司宽带用户数据库,包括1-3月内某市的部分宽带在网及离网用户信息,共计306100条,提取的变量主要涵盖客户基本信息、宽带消费情况、与宽带关联的手机号码消费特征,涉及的变量有42个,主要为三大类:客户基本信息、宽带消费情况、手机消费特征。经过指标变换、异常值处理及缺失值处理后,共保留22个变量,305905条用户数据,其中在网客户30万条,离网客户5905条,
2、不平衡样本抽样
由于移动宽带离网离网用户中,在网用户数据约30万,而离网用户数据仅有5000左右,存在比例的严重失衡,为了提高模型估计精度,需对不平衡样本进行重抽样使离网与在网客户数达到平衡。本文采用SMOTE合成少数类过采样算法,最终抽得154711条。
三、移动宽带用户离网预警模型构建
在构建分类预测模型之前,本文对重抽样样本与初始样本进行了测试集与训练集的划分,将各样本按照3:1的比例随机划分成训练样本和测试样本,其中训练样本用于模型的建立,测试样本用于测试所建立模型的性能。
1、决策树模型
使用原始样本与重抽样样本的训练样本构造决策树模型,通过计算,最终得到原始数据+决策树模型的误判率为0.118,,AUC值为0.789,可知,对于决策树模型来说,SMOTE人工合成少数类过采样算法提高了决策树模型对少数类的分类性能,人工合成样本(SMOTE)的决策树模型估计效果优于原始数据。
根据所建的决策树模型,可得到变量的重要性排序,从各变量重要性对比来看,原始数据与人工合成样本(SMOTE)所构建决策树模型筛选出的重要变量大致相似,在变量重要性位次上有稍许不同,可总结为影响客户离网行为的重要变量分别有:包年/包月、宽带主资费、辅资费、宽带是否办理融合业务、宽带月均ARPU、宽带ARPU波动率、宽带网龄、停机次数等与宽带消费息息相关的变量。
2、Adaboost分类算法
运用Adaboost算法对两类样本进行建模,得到了模型评估结果,SMOTE样本的Adaboost模型误判率为0.0510,低于原始数据0.1454,AUC值为0.935,高于原始数据0.855。可见,重抽样样本均显著提高了模型的分类性能。将Adaboost算法所得的前十位变量重要性排序对比发现,两种样本所构建的Adaboost模型选取的重要变量大致相似,只是在变量位次上有所不同。
3、移动离网宽带预警模型的选择
本文将误判率与AUC值作为模型分类性能的评判标准。基于上节对各类模型误判率和AUC值的比较发现,人工合成样本的Adaboost算法的组合模型估计效果最佳,因此最终选定SMOTE抽样所构建的Adaboost模型为移动宽带离网预警模型。利用当月客户行为信息,通过该模型即可判断客户是否将有离网行为,将有预离网行为客户名单提取出来,通过电话回访等措施,制定相应的挽回措施。
四、结论与建议
构建效果最优的预警模型对于移动宽带运营商做好维系挽留工作具有重要的意义。通过对比分析两类样本与两种分类算法的组合预警模型,最终发现分类效果最优的是使用SMOTE抽样方法结合Adaboost算法的预警模型。分析得到离网客户的重要变量特征表现:宽带主辅资费较高、宽带月均消费较低、 近三月消费波动较小、手机主叫时长较短、未办理宽带融合业务、宽带网龄较长、停机次数较多的城市用户。据此为移动运营商制定相应的营销策略提供建议如下,首先,大力推广包年套餐,逐步延长包月时长。其次,制定多种优惠措施,吸引用户办理寬带融合业务。同时,关注经常停机用户和低消费客户,通过客户回访等方式,询问客户停机原因,切实了解客户需求,帮助客户选择合适的套餐组合。最后,针对宽带网龄较长,即将到期的宽带用户,通过电话回访和续费催缴等方式,并配合优惠活动,鼓励宽带用户续缴。
参考文献
[1]谢邦昌,朱世武,崔嵬.移动电话客户流失数据挖掘[J].数理统计与管理,2005,24(1):62-68.
[2]张维国.移动用户流失预警及挽留对策研究[D].电子科技大学,2013.
[3]隆曼.基于数据挖掘的电信行业客户流失管理研究[D].西南财经大学,2013.
[4]李毅,姜天英,刘亚茹.基于不平衡样本的互联网个人信用评估研究[J].统计与信息论坛,2017,(02):84-90.
作者简介:王志楠(1993—),女,山西朔州人,山西财经大学2015(统计学)学术硕士研究生,研究方向:数据挖掘.
关键字:不平衡样本;重抽样;Adaboost;离网预警模型
一、引言
随着“宽带中国”战略的实施,宽带建设已上升为国家战略性公共基础设施建设工程。宽带业务市场蒸蒸日上的同时,想要保持并扩大市场占有率和利润,宽带运营商必须在争取新客户的同时,也致力于保留既有用户。因此,建立宽带离网预警模型来准确有效地识别出“预离网”用户,根据特定用户的需求制定出个性化的营销方案,有效挽回客户显得尤为重要。然而,移动宽带客户行为数据存在在网客户和离网客户比例严重失衡,对不平衡的宽带离网用户数据进行重抽样则尤为必要。本文将运用人工合成少数类过抽样方法进行重抽样,以平衡移动宽带离网用户和在网用户数,在此基础上,通过决策树、Adaboost两种分类算法,构建移动宽带用户离网预警模型,发掘引致用户离网的重要因素。
二、移动宽带用户离网数据预处理
1、指标选取及数据预处理
移动宽带离网数据量较大,数据复杂程度较高,因此对移动宽带离网数据进行数据预处理是极为必要的。本文所用数据来自2017年1-3月某省移动公司宽带用户数据库,包括1-3月内某市的部分宽带在网及离网用户信息,共计306100条,提取的变量主要涵盖客户基本信息、宽带消费情况、与宽带关联的手机号码消费特征,涉及的变量有42个,主要为三大类:客户基本信息、宽带消费情况、手机消费特征。经过指标变换、异常值处理及缺失值处理后,共保留22个变量,305905条用户数据,其中在网客户30万条,离网客户5905条,
2、不平衡样本抽样
由于移动宽带离网离网用户中,在网用户数据约30万,而离网用户数据仅有5000左右,存在比例的严重失衡,为了提高模型估计精度,需对不平衡样本进行重抽样使离网与在网客户数达到平衡。本文采用SMOTE合成少数类过采样算法,最终抽得154711条。
三、移动宽带用户离网预警模型构建
在构建分类预测模型之前,本文对重抽样样本与初始样本进行了测试集与训练集的划分,将各样本按照3:1的比例随机划分成训练样本和测试样本,其中训练样本用于模型的建立,测试样本用于测试所建立模型的性能。
1、决策树模型
使用原始样本与重抽样样本的训练样本构造决策树模型,通过计算,最终得到原始数据+决策树模型的误判率为0.118,,AUC值为0.789,可知,对于决策树模型来说,SMOTE人工合成少数类过采样算法提高了决策树模型对少数类的分类性能,人工合成样本(SMOTE)的决策树模型估计效果优于原始数据。
根据所建的决策树模型,可得到变量的重要性排序,从各变量重要性对比来看,原始数据与人工合成样本(SMOTE)所构建决策树模型筛选出的重要变量大致相似,在变量重要性位次上有稍许不同,可总结为影响客户离网行为的重要变量分别有:包年/包月、宽带主资费、辅资费、宽带是否办理融合业务、宽带月均ARPU、宽带ARPU波动率、宽带网龄、停机次数等与宽带消费息息相关的变量。
2、Adaboost分类算法
运用Adaboost算法对两类样本进行建模,得到了模型评估结果,SMOTE样本的Adaboost模型误判率为0.0510,低于原始数据0.1454,AUC值为0.935,高于原始数据0.855。可见,重抽样样本均显著提高了模型的分类性能。将Adaboost算法所得的前十位变量重要性排序对比发现,两种样本所构建的Adaboost模型选取的重要变量大致相似,只是在变量位次上有所不同。
3、移动离网宽带预警模型的选择
本文将误判率与AUC值作为模型分类性能的评判标准。基于上节对各类模型误判率和AUC值的比较发现,人工合成样本的Adaboost算法的组合模型估计效果最佳,因此最终选定SMOTE抽样所构建的Adaboost模型为移动宽带离网预警模型。利用当月客户行为信息,通过该模型即可判断客户是否将有离网行为,将有预离网行为客户名单提取出来,通过电话回访等措施,制定相应的挽回措施。
四、结论与建议
构建效果最优的预警模型对于移动宽带运营商做好维系挽留工作具有重要的意义。通过对比分析两类样本与两种分类算法的组合预警模型,最终发现分类效果最优的是使用SMOTE抽样方法结合Adaboost算法的预警模型。分析得到离网客户的重要变量特征表现:宽带主辅资费较高、宽带月均消费较低、 近三月消费波动较小、手机主叫时长较短、未办理宽带融合业务、宽带网龄较长、停机次数较多的城市用户。据此为移动运营商制定相应的营销策略提供建议如下,首先,大力推广包年套餐,逐步延长包月时长。其次,制定多种优惠措施,吸引用户办理寬带融合业务。同时,关注经常停机用户和低消费客户,通过客户回访等方式,询问客户停机原因,切实了解客户需求,帮助客户选择合适的套餐组合。最后,针对宽带网龄较长,即将到期的宽带用户,通过电话回访和续费催缴等方式,并配合优惠活动,鼓励宽带用户续缴。
参考文献
[1]谢邦昌,朱世武,崔嵬.移动电话客户流失数据挖掘[J].数理统计与管理,2005,24(1):62-68.
[2]张维国.移动用户流失预警及挽留对策研究[D].电子科技大学,2013.
[3]隆曼.基于数据挖掘的电信行业客户流失管理研究[D].西南财经大学,2013.
[4]李毅,姜天英,刘亚茹.基于不平衡样本的互联网个人信用评估研究[J].统计与信息论坛,2017,(02):84-90.
作者简介:王志楠(1993—),女,山西朔州人,山西财经大学2015(统计学)学术硕士研究生,研究方向:数据挖掘.