论文部分内容阅读
摘要:在移动通讯市场中,争取一个新客户的代价往往比留住一个老客户要大很多,所以客户流失预测是移动通讯运营公司最为关注的重点之一。文章利用SOM网络建立客户流失预测模型,为移动通讯运营公司的经营决策提供帮助。
关键词:数据挖掘;神经网络;SOM;预测
一、引言
客户流失是全球移动通讯运营公司普遍关注的焦点问题之一,伴随着移动通讯市场的日趋成熟,这个问题变的越来越普遍。全球很多的移动通讯运营公司。每年的客户流失率达到20%~40%。客户流失对移动通讯运营公司带来不利的影响,首先表现在公司利润的减少;而且,一个客户的流失。会产生群体效应,就像滚雪球一样引起其周围的人纷纷离开;另外,要获取一个新客户,须在销售、市场、广告和人员工资上花费很多的费用。因此保留住客户,防止因客户流失而引发的经营危机,对于提高公司竞争力而言具有战略意义。
为了更好地对客户流失进行管理。移动通讯运营公司必须对流失客户的有关属性有清楚的认识。找出客户流失与有关属性值之间的关系。目前多种分类技术可以用来建立流失预测模型,来对一个给定的客户是否流失做出判断。这些技术包括有:(1)决策树方法。它是最早应用于客户流失问题分析的算法,实际应用也较多。国际上最早的、最有影响的决策树方法是Quinlan提出的ID算法,白ID3算法出现后,研究人员又展开大量的研究,提出了许多富有成效的优化算法,如CHAID算法、C5.0算法、SPRINT算法、CART算法等。决策树算法的一个显著优点是决策人员可轻松明白其含意,以及可轻松识别用于流失管理的重要变量,得到客户流失的线索,另外它还具有模型效率高、不需要受训数据外的知识、分类精确度高等优点。因此被人们广泛采用。但决策树也存在一些缺点,比如只能有一个目标变量,通常需要很多的预处理工作等。(2)Logistic回归方法,其优点是模型计算时间较短,最终得出的模型其可解释性也很强,各个变量的相关系数就表明了各个变量的权重,但Logistie回归一般开始进行数据准备时间比较长;(3)遗传算法,是利用进化论思想进行分类的算法,在实际的应用中,表现了较高的预测准确率。但通常算法训练时间长,模型的可解释性差;(4)神经网络,是最复杂的分类算法之一,其优点是错误率底,对噪声数据具有很强的承受能力,可以对未经训练的数据进行分类,相比于决策树,神经网络的一个优点是可以同时生成多个目标变量的输出。当然,神经网络的缺点在于结构复杂、网络训练时间长、结果不易理解等。
自组织映射(Self-Organizing Maps,SOM)算法是由芬兰赫尔辛基大学神经网络专家Kohonen教授于1981年提出的竞争式神经网络,由于它的强大功能,20多年来,SOM网络在聚类分析、模式识别等领域中得到了广泛应用。本文从SOM算法出发,研究如何利用训练好的SOM网络的回想过程,对移动客户是否流失进行预测。
二、自组织映射网络
1 自组织映射(SOM)网络简介。SOM网络结构如图1所示,从图中可以看出,网络只有输入层和输出层,且两层之间为完全连接。
设输入矢量X2的维数为n,则输入层有n个节点,输出层由m个神经元组成二维平面阵列;输入层与输出层各神经元之间完全连接,设连接权重向量为wji,其中j表示输出层第j个节点,j表示输入层第i个节点。输入层节点并不对输入矢量X2进行处理。它只是把输入矢量的各个分量经过连接权传送到输出层,激发输出层各个神经元之间的竞争,因此输出层也称为竞争层。输出层内的每个神经元与其邻域连接,此连接是相互激励的关系,“即以获胜神经元为圆心,对近邻的神经元表现出兴奋侧反馈,而对远邻的神经元表现出拟制性侧反馈,近邻者相互激励,远邻者相互拟制”,这种相互作用的曲线类似于墨西哥人带的帽子,因此也称这种交互方式为“墨西哥草帽”。如图2所示。
2 自组织映射网络学习算法。设SOM网络的输入矢量的集合为(X1,X2,Xq),其中q为集合中总共输入矢量的个数。则具体SOM网络的学习算法如下:
Step 1:初始化。将网络的连接权{wji}赋[0,1]区间内的随机值,i=1,2,…,n;j=1,2,…,m。确定学习率η(t)的初始
关键词:数据挖掘;神经网络;SOM;预测
一、引言
客户流失是全球移动通讯运营公司普遍关注的焦点问题之一,伴随着移动通讯市场的日趋成熟,这个问题变的越来越普遍。全球很多的移动通讯运营公司。每年的客户流失率达到20%~40%。客户流失对移动通讯运营公司带来不利的影响,首先表现在公司利润的减少;而且,一个客户的流失。会产生群体效应,就像滚雪球一样引起其周围的人纷纷离开;另外,要获取一个新客户,须在销售、市场、广告和人员工资上花费很多的费用。因此保留住客户,防止因客户流失而引发的经营危机,对于提高公司竞争力而言具有战略意义。
为了更好地对客户流失进行管理。移动通讯运营公司必须对流失客户的有关属性有清楚的认识。找出客户流失与有关属性值之间的关系。目前多种分类技术可以用来建立流失预测模型,来对一个给定的客户是否流失做出判断。这些技术包括有:(1)决策树方法。它是最早应用于客户流失问题分析的算法,实际应用也较多。国际上最早的、最有影响的决策树方法是Quinlan提出的ID算法,白ID3算法出现后,研究人员又展开大量的研究,提出了许多富有成效的优化算法,如CHAID算法、C5.0算法、SPRINT算法、CART算法等。决策树算法的一个显著优点是决策人员可轻松明白其含意,以及可轻松识别用于流失管理的重要变量,得到客户流失的线索,另外它还具有模型效率高、不需要受训数据外的知识、分类精确度高等优点。因此被人们广泛采用。但决策树也存在一些缺点,比如只能有一个目标变量,通常需要很多的预处理工作等。(2)Logistic回归方法,其优点是模型计算时间较短,最终得出的模型其可解释性也很强,各个变量的相关系数就表明了各个变量的权重,但Logistie回归一般开始进行数据准备时间比较长;(3)遗传算法,是利用进化论思想进行分类的算法,在实际的应用中,表现了较高的预测准确率。但通常算法训练时间长,模型的可解释性差;(4)神经网络,是最复杂的分类算法之一,其优点是错误率底,对噪声数据具有很强的承受能力,可以对未经训练的数据进行分类,相比于决策树,神经网络的一个优点是可以同时生成多个目标变量的输出。当然,神经网络的缺点在于结构复杂、网络训练时间长、结果不易理解等。
自组织映射(Self-Organizing Maps,SOM)算法是由芬兰赫尔辛基大学神经网络专家Kohonen教授于1981年提出的竞争式神经网络,由于它的强大功能,20多年来,SOM网络在聚类分析、模式识别等领域中得到了广泛应用。本文从SOM算法出发,研究如何利用训练好的SOM网络的回想过程,对移动客户是否流失进行预测。
二、自组织映射网络
1 自组织映射(SOM)网络简介。SOM网络结构如图1所示,从图中可以看出,网络只有输入层和输出层,且两层之间为完全连接。
设输入矢量X2的维数为n,则输入层有n个节点,输出层由m个神经元组成二维平面阵列;输入层与输出层各神经元之间完全连接,设连接权重向量为wji,其中j表示输出层第j个节点,j表示输入层第i个节点。输入层节点并不对输入矢量X2进行处理。它只是把输入矢量的各个分量经过连接权传送到输出层,激发输出层各个神经元之间的竞争,因此输出层也称为竞争层。输出层内的每个神经元与其邻域连接,此连接是相互激励的关系,“即以获胜神经元为圆心,对近邻的神经元表现出兴奋侧反馈,而对远邻的神经元表现出拟制性侧反馈,近邻者相互激励,远邻者相互拟制”,这种相互作用的曲线类似于墨西哥人带的帽子,因此也称这种交互方式为“墨西哥草帽”。如图2所示。
2 自组织映射网络学习算法。设SOM网络的输入矢量的集合为(X1,X2,Xq),其中q为集合中总共输入矢量的个数。则具体SOM网络的学习算法如下:
Step 1:初始化。将网络的连接权{wji}赋[0,1]区间内的随机值,i=1,2,…,n;j=1,2,…,m。确定学习率η(t)的初始