基于数据挖掘的电信客户流失预警研究

来源 :云南财经大学 | 被引量 : 0次 | 上传用户:dawneagle
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算机、通信技术的飞速发展,加速了互联网和通讯网的融合,由此带来的是在线社交网络日益成为人们沟通交流、交友等的重要平台,人们对于通信服务的需求也迅速攀升,这给电信行业带来了一系列的机遇。同时又由于市场的饱和、行业服务趋于同质化等因素的影响加剧了电信企业之间的竞争,客户更是成为了稀缺资源,增加新客户变得愈加困难,所以如何稳定住现有的客户不流仍然是各大电信企业关注的焦点问题。而且增加新的客户所花费的成本高于保留老客户的成本,老客户的流失会给企业带来许多损失,所以研究预测客户的流失模型是有必要且有意义的。国内外的专家学者也已经对此进行了大量的研究并取得了许多有价值、可供参考的成果。同时,数据挖掘技术的发展为企业探究预测客户流失模型提供了大量的理论方法支持。本文先对数据挖掘这一领域做了概述,了解了相关的概念、流程和应用功能。鉴于电信客户流失问题本质上是一个二分类问题,所以将应用数据挖掘中的分类方法来解决,在众多分类方法中,选择了运用机器学习方法来解决。因此,在第三章对第四章进行实证分析时所用到的机器学习理论逐一做了介绍,包括先研究了建模前进行数据准备的数据预处理方法,接下来着重探讨和总结归纳了机器学习中的单一模型包括k-近邻模型、朴素贝叶斯模型、CART决策树模型、Logistic回归模型以及集成学习模型包括Adaboost模型、梯度提升树模型和随机森林模型主要在解决二分类问题时背后的数学、统计学等原理,总结归纳了上述算法的实现步骤以及在实践应用中的优缺点等。在理解了理论方法的适用范围及其优缺点后,在真实的数据集上进行实证研究。在建立模型前,先具体了解了数据的基本信息包括统计信息、缺失率等,然后在此基础上进行了数据预处理,包括部分特征变量的删除、缺失值的填充,分类型变量的哑编码等,最终通过梯度提升树算法选择出了对模型预测结果影响最重要的21个特征变量,作为模型的最终输入。将数据集划分为训练集和测试集后,通过训练集对上述各个单一学习模型和集成学习模型进行训练。用AUC值来作为模型性能的评估指标,并以此为根据对模型做出初步选择,同时对比各个模型性能的优劣,发现单一模型的AUC值均低于集成学习模型的AUC值,集成学习模型当中梯度提升树模型的表现最好,因此将梯度提升树作为最终的预测模型。结合带交叉验证的网格搜索法和交叉验证法通过调参来优化模型,最终获得了表现较优的模型。最后文章在结尾处对全文做了总结与展望。
其他文献
一、新华书店发展连锁经营应实施规范化、标准化的管理 连锁经营能使商流、物流、信息流的控制相对集中,通过统一进货、统一配送、统一交流信息,减少独立运作时的资源浪费。
“全国人大代表”、“中国十大女杰”、“全国三八红旗手”、“中国十大品牌女性”、“全国五一劳动奖章获得者”、“全国纺织工业劳动模范”……这些荣誉的背后是一位充满魅
党的十六大以来的10年,我目纺织工业发生了翻天覆地的变化。科技进步飞跃提升,品牌建设卓有成效,可持续发展稳步推进,人才建设勇立潮头。
“继续跑,带着赤子的骄傲…….”伴随着前三届选手及观众们的意犹未尽,2014“大浪杯”中国女装设计大赛再次全面启动,而这一届的主题是“追梦@东方”。  由深圳市经济贸易和信息化委员会、深圳市龙华新区管理委员会和中国纺织出版社主办,《中国服饰》杂志、深圳市服装行业协会、深圳市龙华新区大浪办事处、龙华新区经济服务局承办的2014“大浪杯”中国女装设计大赛新闻发布会于3月26日下午在北京昆仑饭店隆重举行
科技的飞速发展加速了智能时代的到来,同时催生了一系列传统产业的变革。“中国制造2025”是李克强总理为我国的支柱产业——制造业制定的战略目标,智能制造作为其五大工程之一理应是我们传统制造业登上产业革命舞台的首要任务。在这场产业革命中,越来越多的企业选择加入并购浪潮来完成其转型的使命与目标。美的作为一家典型的以家电制造为主的大型企业,为响应国家智能制造战略提出了“双智”(智能制造和智能家居)的战略目
十多年前,还在持续增长的中国服装制造规模看起来依然是一片盛世景象。然而,那时几乎没人意以到:我们这个人口最多的发展中国家竟然会如此快地迎来人力成本高涨与缺人的困境。