论文部分内容阅读
摘 要:面对瞬息万变的市场需求和日益激烈的市场竞争,客户关系管理对于现代企业的重要性日益凸显。客户流失预警是利用数据挖掘技术发现即将流失的客户名单,从而为企业有针对性地开展客户维系与挽留工作提供科学依据。国内外学者已经围绕客户流失预测模型做了许多研究,目前使用最为广泛的三种算法是Logistic回归、决策树和人工神经网络。由于实验数据的差异,这些研究所得到的结论也不尽相同。而且,现有研究大多基于模拟数据和用户消费数据,包含直接可用的预测变量,而鲜少涉及第三方支付行业常见的商户交易流水这一数据形式,如何从非结构化的交易流水中提取特征仍是一大难题。本文对某第三方支付公司提供的商户交易流水数据进行了整理和分析,结合业务经验构造了六个维度的特征用于预测客户流失情况,精心准备建模数据。运用主成分分析方法,解决了这些变量间存在的共线性问题。然后,分别采用传统的 Logistic回归方法和基于决策树的LightGBM、基于神经网络的多层感知器两种不同的机器学习流行算法建模,得到定量分析结果,并对其进行定性分析。一方面,对模型进行解释,寻找客户流失关键因素;另一方面,对比不同算法在客户流失预测场景下的预测性能,探讨算法的适用性。实验结果表明,简单的 Logistic 回归即可取得较好的效果,LightGBM和 MLP进一步提升了预测的准确度,且两种方法的预测性能没有明显的优劣之分,在解释能力和泛化能力上各具优势。对于变量重要性,近期内(1 个月左右)商户的交易金额和交易笔数的变化率对模型预测结果影响最大,是实际的客户流失预测工作中需要重点关注的变量。
关键词:流失预警;非结构化数据;主成分分析;LightGBM;多层感知器
一 相关理论基础
(一)客户流失理论
客户流失表现为客户为企业带来的价值的减少,不仅包括彻底终止与企业交易的行为,也包括减少与企业的交易次数、同时增加与竞争企业的交易频率的行为。本文对客户流失的定义是:若某个商户连续 3 个月没有产生交易流水记录,则认为该商户已经流失。
对于有流失倾向的客户,针对性地采取挽留措施,重建良好客户关系,保障企业利益不受损失,就是客户流失管理。客户流失管理可以划分为四个阶段——客户流失预测阶段、客户流失分析阶段、客户挽留阶段、方案评估阶段。流失预测阶段的主要工作就是借助客户流失预警模型,找出流失概率大的客户群体,列为重点关注对象。
(二)主成分分析
本文基于交易流水数据构造了六个维度的指标,同一维度内的指标相互之间相关性较强,直接用于建模会造成严重的共线性问题,使得模型不稳定,变量系数与实际方向甚至可能相反。因此,选择主成分分析法对指标进行降维处理。在构建完第三方支付公司商户流失风险预警指标体系后,对指标进行变量间相关性分析,通过主成分分析提取主成分,用于客户流失预测建模,以此来消除可能存在的多重共线性问题。
(三)分类算法
客户流失预测问题本质上是一个二分类问题,常用算法可以归纳为基于统计理论的预测和基于机器学习的预测两类。统计型算法以概率论和统计学原理为基础,常用的有回归分析、聚类分析和判别分析等。机器学习属于人工智能范畴,通过对大量样本的训练和学习寻找所需要的参数或模式,主要包括决策树、贝叶斯、人工神经网络、k近邻、支持向量机等,以及组合多个基学习器的集成学习算法。
二 客户流失预警模型
(一)评估指标
文采用精确率P、召回率R、二者的综合指标 F1-score 和AUC 值来评价模型的预测性能。对于某个类别,精确率 P 衡量的是正确判定该类别的测试样本占判定为该类别的测试样本的比例,召回率R衡量的是正确判定该类别测试样本占该类别所有测试样本的比例。对于给定的混淆矩阵,前三个指标的计算公式分别为:
定义真正类率(True Positive Rate,TPR)为预测为正且实际为正的样本占所有正例样本的比例,伪正类率(False Positive Rate,FPR)为预测为正但实际为负的样本占所有负例样本的比例。对于模型给出的每个实例为正类的概率,通过设定阈值可以将每个实例归入正类或负类,进而计算得相应的一组 TPR 与 FPR,每一组均对应 ROC 曲线上的一点。AUC 值即定义为 ROC 曲线下方的面积,AUC 值越大的分类器,正确率越高。
(二)模型结果
在建模准备阶段,已经通过主成分分析方法得到了 11 个相互正交的新变量,直接进行Logistic 回归不会存在多重共线性问题。模型的参数估计见表 5,可以看到,在 0.05 的显著性水平下,除去 RC6 以外,全部变量均通过了显著性检验。RC6 主要与交易活跃维度下的近 3 个月活跃天数日均交易笔数、近 3 个月累计交易笔数、近 6 个月累计交易笔数、近 9 个月累计交易笔数四个指标相关。
对于 LightGBM 和 MLP,通过 5 折交叉验證确定最佳参数组合。选择建立三层的 MLP 模型,隐藏层包含 10 个节点。比较三个模型在测试集上的精准率、召回率、F1 值和 auc 值,可以得出结论,Logistic 回归已经能够取得较好的分类结果,auc 值在 0.83 左右;LightGBM 和 MLP 在精准率和召回率上各占优势,但从 F1-score 和 auc 值两个综合性指标来看,LightGBM 略胜一筹。但这种优势并不十分突出——LightGBM 的 auc值相对于 MLP 仅提高了不到 0.004。
神经网络方法类似于一个黑箱,与之不同的是,我们可以直接输出 Logistic 回归模型和LightGBM 模型中各个解释变量的重要程度,如下图所示。可以看到,两种方法中第 7 个主成分都是对预测商户流失最重要的变量,RC7 主要由近 1 个月交易金额 / 近 3 个月月均交易金额、近 1 个月交易笔数 / 近 3 个月月均交易笔数两个指标解释,因此,商户流失预测需要重点关注近期内(1 个月左右)商户的交易金额和交易笔数的变化率。
关键词:流失预警;非结构化数据;主成分分析;LightGBM;多层感知器
一 相关理论基础
(一)客户流失理论
客户流失表现为客户为企业带来的价值的减少,不仅包括彻底终止与企业交易的行为,也包括减少与企业的交易次数、同时增加与竞争企业的交易频率的行为。本文对客户流失的定义是:若某个商户连续 3 个月没有产生交易流水记录,则认为该商户已经流失。
对于有流失倾向的客户,针对性地采取挽留措施,重建良好客户关系,保障企业利益不受损失,就是客户流失管理。客户流失管理可以划分为四个阶段——客户流失预测阶段、客户流失分析阶段、客户挽留阶段、方案评估阶段。流失预测阶段的主要工作就是借助客户流失预警模型,找出流失概率大的客户群体,列为重点关注对象。
(二)主成分分析
本文基于交易流水数据构造了六个维度的指标,同一维度内的指标相互之间相关性较强,直接用于建模会造成严重的共线性问题,使得模型不稳定,变量系数与实际方向甚至可能相反。因此,选择主成分分析法对指标进行降维处理。在构建完第三方支付公司商户流失风险预警指标体系后,对指标进行变量间相关性分析,通过主成分分析提取主成分,用于客户流失预测建模,以此来消除可能存在的多重共线性问题。
(三)分类算法
客户流失预测问题本质上是一个二分类问题,常用算法可以归纳为基于统计理论的预测和基于机器学习的预测两类。统计型算法以概率论和统计学原理为基础,常用的有回归分析、聚类分析和判别分析等。机器学习属于人工智能范畴,通过对大量样本的训练和学习寻找所需要的参数或模式,主要包括决策树、贝叶斯、人工神经网络、k近邻、支持向量机等,以及组合多个基学习器的集成学习算法。
二 客户流失预警模型
(一)评估指标
文采用精确率P、召回率R、二者的综合指标 F1-score 和AUC 值来评价模型的预测性能。对于某个类别,精确率 P 衡量的是正确判定该类别的测试样本占判定为该类别的测试样本的比例,召回率R衡量的是正确判定该类别测试样本占该类别所有测试样本的比例。对于给定的混淆矩阵,前三个指标的计算公式分别为:
定义真正类率(True Positive Rate,TPR)为预测为正且实际为正的样本占所有正例样本的比例,伪正类率(False Positive Rate,FPR)为预测为正但实际为负的样本占所有负例样本的比例。对于模型给出的每个实例为正类的概率,通过设定阈值可以将每个实例归入正类或负类,进而计算得相应的一组 TPR 与 FPR,每一组均对应 ROC 曲线上的一点。AUC 值即定义为 ROC 曲线下方的面积,AUC 值越大的分类器,正确率越高。
(二)模型结果
在建模准备阶段,已经通过主成分分析方法得到了 11 个相互正交的新变量,直接进行Logistic 回归不会存在多重共线性问题。模型的参数估计见表 5,可以看到,在 0.05 的显著性水平下,除去 RC6 以外,全部变量均通过了显著性检验。RC6 主要与交易活跃维度下的近 3 个月活跃天数日均交易笔数、近 3 个月累计交易笔数、近 6 个月累计交易笔数、近 9 个月累计交易笔数四个指标相关。
对于 LightGBM 和 MLP,通过 5 折交叉验證确定最佳参数组合。选择建立三层的 MLP 模型,隐藏层包含 10 个节点。比较三个模型在测试集上的精准率、召回率、F1 值和 auc 值,可以得出结论,Logistic 回归已经能够取得较好的分类结果,auc 值在 0.83 左右;LightGBM 和 MLP 在精准率和召回率上各占优势,但从 F1-score 和 auc 值两个综合性指标来看,LightGBM 略胜一筹。但这种优势并不十分突出——LightGBM 的 auc值相对于 MLP 仅提高了不到 0.004。
神经网络方法类似于一个黑箱,与之不同的是,我们可以直接输出 Logistic 回归模型和LightGBM 模型中各个解释变量的重要程度,如下图所示。可以看到,两种方法中第 7 个主成分都是对预测商户流失最重要的变量,RC7 主要由近 1 个月交易金额 / 近 3 个月月均交易金额、近 1 个月交易笔数 / 近 3 个月月均交易笔数两个指标解释,因此,商户流失预测需要重点关注近期内(1 个月左右)商户的交易金额和交易笔数的变化率。