论文部分内容阅读
新时期下,电信企业的战略目标已经由新客户开发转向老客户保留。在越发成熟的电信市场,新客户的开发难度越来越大,需要消耗大量的人力和财力。最初很长一段时期,各运营商们花费大量的精力用于开拓新市场、开发新客户,而对客户保持关注度不够。开拓新市场势必花费大量的运营成本,这就造成了一定程度的客户虚增现象。有研究表明,开发新客户要比保留老客户花费更大的运营成本,但是给企业带来的收益不高。一个老客户会将自己的满意体验告诉邻近2-3人,将不满意体验告诉邻近8-10人,这将在很大程度上影响到企业的声誉。本文基于某市的宽带客户行为数据,依据该企业宽带客户的行为数据构建是否出账的预警模型。时间窗口选为五个月,其中前三个月为分析窗口,用于模型构建,第四个月为挽留窗口,用于企业采取措施进行保留,第五个月为预测窗口,即对客户是否出账实现隔月预测。本文的主要目标是建立一个组合模型来对客户是否流失进行隔月预测。组合模型是基于四种基分类器线性组合的分类算法,可以有效发挥各基模型的优点,提高模型的分类能力,帮助企业进行客户挽留,对提高企业收益具有重大意义。数据的选择具有严重的数据不均衡和属性较少的特点,在对数据进行缺失值和异常值处理之后,开始对数据进行特征工程,包括特征衍生和特征选择。进行有效的特征衍生,可以提升模型的分类能力;特征选择可以在对模型不影响或者影响较小的前提下,提升模型的运行速度。针对数据的严重倾斜问题,本文选择从两个方向对数据进行抽样,首先对多数类样本进行随机欠采样,然后对少数类样本进行SMOTE过采样,且采样后的子数据集多数类与少数类的比例约为10:1,重复上述过程4次,并将得到的四个数据集分别用于一种基分类器的训练。基分类器选择了差异性较大的逻辑回归、支持向量机、神经网络和XGBoost。如此,可以起到有效解决数据不均衡问题且提升模型的分类能力的目的。将训练好的四个基分类器对测试集进行预测,并对预测结果进行线性组合,即得到组合模型的预测结果。组合模型的关键在于系数的求解,为了构建较好的组合模型损失函数,本文引入第I类分类错误率来作为系数的惩罚项,并利用Lagrange乘子法将组合模型系数的限制条件加到损失函数中,通过最小化损失函数求解模型的系数。并在基分类器的基础上,构建了多数投票模型,与本文组合模型进行比较。为了证明本文模型的有效性,通过精确率、召回率、F1值、AUC值等评估方法对各模型的结果进行分析比较。实验的结果表明,基分类器中支持向量机的F1值和犯第I类分类错误率是最好的,逻辑回归的犯第II类分类错误率是最好的,XGBoost对少数类样本有更高的召回率,神经网络的AUC值是最大的。由此发现,基分类器性能是不稳定的。多数投票法与基分类器相比较发现,在多数指标上都表现出更好的结果,尤其是在少数类样本的召回率上,但是在AUC值、少数类的预测精确率和F1值却表现的不好,由此发现,传统的组合模型依然存在着很多问题。而本文构建的组合模型的结果表明,在各个指标上相对于其他基分类器和多数投票模型均有不少的提升,其中犯第I类和第II类分类错误率较其他最优模型都降低了0.05%,模型准确率较其他最优模型提高了0.32%,对少数类样本的模型精确率、召回率和F1值较其他最优模型分别提高了2.05%、3.32%和4.63%,模型AUC值也提高了0.006。实验表明,本文构建的组合模型是有效的,是有现实意义的。此外,本文构建的模型还可以从多方面进行改进。首先是从特征的衍生上,可以构建与目标函数相关性更强的特征;本文基分类器的选择是传统模型,如果选择某种改进过的模型作为子分类器,可能会提高组合模型的分类能力;本文模型组合方式是线性的,如果改用非线性的组合方法,可能会对模型的预测精度有提升。