论文部分内容阅读
随着信息与通信技术的快速发展,电信运营市场日益饱和,运营商之间的竞争日趋加剧。客户流失预测已成为电信行业重点关注的一个问题,进行潜在流失客户的预测分析,及时发现具有较高流失概率的客户,并制定相应的客户挽留策略,对各大电信运营商来讲具有重大意义。本文以电信行业客户流失预测为研究背景,旨在构建一个高效、准确的电信客户流失预测模型,以高效、准确地预测出具有较高流失概率的客户。本文的主要研究内容与成果如下:1.本文针对电信客户流失数据集中存在的特征维度过高的问题,对比研究利用主成分分析、卡方检验和Fisher比率方法进行特征降维所选择的优化特征子集,采用大数据处理框架Spark与Spark机器学习库ML/MLlib进行实验,分析不同优化特征子集对朴素贝叶斯、线性支持向量机、逻辑斯蒂回归、决策树和随机森林分类模型预测效果的影响。实验结果表明,不同的特征选择方法所选的优化特征子集对不同分类模型预测效果的影响不同,其中Fisher比率能够选取相对最优的特征子集,并取得较好的预测效果。2.提出一种基于Fisher比率和预测风险准则的分步特征选择方法。本文针对电信客户流失领域特征选择方法存在的问题,结合过滤式和封装式特征选择方法的优点,提出了一种基于Fisher比率和预测风险准则的分步特征选择方法。基于该方法所选的优化特征子集具有较强的判别能力,同时对分类器预测效果影响较大。实验结果表明,相比于未进行特征选择和基于一步特征选择的客户流失预测模型,本文提出的基于分步特征选择方法的客户流失预测模型能够提高客户流失预测的准确性。3.提出一种基于分步特征选择和组合分类器的客户流失预测模型构建框架。结合Spark机器学习库ML/MLlib,构建基于分步特征选择方法的朴素贝叶斯、线性支持向量机、逻辑斯蒂回归、决策树和随机森林的客户流失预测模型。在此基础上,采用优选组合预测方法从多个分类预测模型中选取预测效果较好的若干分类器,并采用加权组合所选分类器输出值的方式构建组合分类器。实验结果表明,相对于单一分类模型的预测效果,本文提出的基于分步特征选择和组合分类器的客户流失预测模型能够显著提高流失预测效果。本文结合Spark大数据处理框架,针对电信客户流失数据集中存在的特征维度过高问题,对比研究利用主成分分析、卡方检验和Fisher比率选择的优化特征子集,分析不同优化特征子集对不同分类模型预测效果的影响。针对该领域特征选择存在的问题,结合过滤式和封装式特征选择方法的优点,提出了一种基于Fisher比率和预测风险准则的分步特征选择方法。在此基础上,提出了一种基于分步特征选择和组合分类器的电信客户流失预测模型。实验结果表明,相比于典型的特征选择方法,本文提出的基于Fisher比率和预测风险准则的分步特征选择方法提高了各分类模型的预测效果;基于分步特征选择与组合分类器的电信客户流失预测模型进一步提高了客户流失预测效果。