论文部分内容阅读
国内电信运营企业向客户提供的后付费业务天然具有信用消费的特点,客户欠费不断发生。为控制欠费,目前进行的欠费通知、暂停服务、限制不可靠客户入网,引起客户不满,导致收入流失。实施客户信用度管理是解决上述问题的有效手段。本文旨在建立一个数学模型,基于客户资料、业务属性、消费情况和交费行为计算出每个客户的信用度数值,预测违约风险,直接或间接地成为客户可以透支消费的门限,并可以应用于计费帐务系统对客户欠费进行管理。使用数据挖掘的方法对客户进行信用评分。分别使用二分类Logistic回归和分类树以及SPSS建立和评估分析模型。本文建立的信用模型属于内部模型,是企业根据自己所掌握的客户信用数据开发的模型。将面向业务的相关基础数据从业务系统复制到PC服务器后采用PL/SQL进行离线分析,转化成能够直接使用SPSS软件进行分析的存储格式。定义开始收违约金的客户为“坏”客户,否则为“好”客户。创建欠费自变量,将每一客户历史上若干条交易记录汇总,聚集到客户水平上。用不同的单调递增的初等函数将每次欠费持续时间、欠费距今时间进行变换,构造不同的聚集算法,考察每种算法结果与违约频率之间的Kendall’s Tau-b等级相关系数,选取系数最大的欠费自变量作为最佳结果。由于连续变量与违约频率的关系一般是非线性的,需要离散化成片断,相邻的片断之间要有显著的违约频率差别,每个片段要保证一定的样本量。先确定一个初始划分,使得在该划分下,组间的违约频率保持总体上的变化趋势。根据Pearsonχ2减少连续自变量组的数量和分类自变量的水平数。首先用前向逐步回归筛选自变量,建立Logistic回归模型。其次使用CHAID规则建立深度分别为3层和4层的分类树模型。最后从分类树的树干和树枝中发现相互作用,增加派生变量,再用前向逐步回归建立包含交互项的Logistic回归模型。对模型的评估表明,一方面模型并不能很好地拟合数据,另一方面自变量对因变量又能够进行很好地解释。从拟合结果看,缴费习惯是决定违约的主要因素。设备状态、计费类型和营业区也是影响违约的重要因素。