论文部分内容阅读
摘 要:针对传统的关联挖掘算法无法结合时间属性把握电信业数据的变化趋势而出现关联误判,效率不高的问题,提出动态感知PSO的电信业数据关联规则挖掘方法,用时间点压缩法对连续数据进行离散化,使用包含趋势属性的三元素模式对粒子进行编码。粒子迭代的适应值做为动态感知变量改进粒子的更新规则。实验结果证明,这种方法能够有效地对客户消费趋势进行预测,大大提高了关联挖掘的效率与准确率,具有很强的实用价值。
关键词:电信业关联挖掘;变化趋势;三元素编码; PSO
中图分类号:TP301.6 文献标识码:A DOI:10.3969/j.issn.1003-6970.2013.06.014
0 引言
电信行业的竞争愈演愈烈使运营商面对着严重的客户流失的问题。如何将管理活动精确细分、重视营销的个性化来挽留客户防止客户流失成为各大运营商关注的焦点[1]。客户的日常通信行为为运营商积攒了大量的数据,这些数据蕴藏着丰富的客户消费行为习惯,对客户的消费行为、客户服务信息和缴费情况等数据进行分析挖掘可以对客户实施个性的客户业务推荐来挽留客户,提升客户价值[2-3]。通过关联规则进行客户的业务推荐是各大运营商常用的技术,伴随着各种改进的关联挖掘算法也出现了各种优秀的数据仓库与挖掘系统应用在电信业的客户消费行为数据挖掘中[4-5]。
客户在消费行为中常常存在着一定的趋势属性,传统的关联挖掘算法应用在电信业客户消费行为分析挖掘中仅仅将客户的消费记录数据进行单独的数据预处理,通过频繁项集的计算来进行支持度与置信度约束下的关联挖掘[6-7]。这种方法忽略了记录间存在的变化与联系,造成了关联挖掘的误判,挖掘的效果达不到要求。
为此提出了动态感知PSO关联的电信业客户消费行为分析方法。将群体智能的搜索优化技术通过目标函数的设计与关联规则挖掘进行联系。使用重要时间点压缩的方法对连续数据进行预处理与相似形度量,这种处理可以保留数据的趋势属性。通过包含时间变化的三元素微粒进行粒子的编码,并且通过目标函数的反馈来动态调整粒子的更新参数。实验证明,这种机制下的电信业客户消费行为关联挖掘准确率较高且挖掘的效率也大大提升,有很强的实用价值。
1 关联挖掘的数据预处理
电信业客户消费行为关联分析的数据源来自多个表或者系统,在客户的通信消费记录中大部分是连续型的数据,而关联规则处理的数据应该是离散型的数据。传统的离散方法是采用区间化的数据处理办法,将连续型的数据区间化分为不同的子区间,并且使用某一个数值代替该区间中的所有数据,设代表客户消费行为的某一属性,且,将划分为
每一个区间分别使用一个值来代表。这种处理方法会丢失数据中蕴藏的很多信息,特别是无法将客户消费行为的变化趋势信息保留。本文使用时间压缩的方法来进行数据的离散化。对离散化的数据使用相似形度量的方法来进行频繁模式的获取。
设客户的某一属性的时间变化趋势如下图的曲线所示:
图1 趋势属性的时间压缩图
在图1 中选取重要时间点作为区间的划分边界点,如上图横坐标的所示,设对应的属性数据值为,如果存在个子序列的划分,上述的曲线可以表示为:
(3)
为了描述上述的属性的趋势信息,使用最小二乘法的思想,将每一个序列分别拟合为直线,这样每一个区间就可以表示为一个元模式,,每一个元模式不但表述了该属性在区间的范围还相应提供了区间变化的趋势信息,这样时间序列的模式表示为:
(4)
将关注属性的压缩时间点进行同步后,对每一个时间序列的属性进行上述的区间化,不但可以表征该数据的区间范围,还将该数据所属的区间变化趋势表现,实际证明这种区间化的方法能够更好地应用在电信业客户消费行为的关联分析中。
在一些变量中由于业务的原因,某些变量之间存在着巨大的相关性,比如客户的长途次数与长途时间这样的变量在建模的过程中同时使用是没有必要的,有时对模型的运行还会存在一定的副作用。数据预处理中关于变量的约简就是尽量地减少信息量情况下寻找更低维的变量。主成份分析法是统计中最主流的约简方法,但是本身的结果就是若干信息量的综合,即使经过了因子旋转处理后也难于优化[8]。本文选用下面的两种简单的步骤进行维数简约:
1)利用众数的分析方法找出微效变量,特别是众数表示值为0的一些变量,比如某客户的国际长途次数这样的变量,就可以在模型中去掉。
2)利用相关系数的分析方法解决变量间存在的线性冗余的问题:
(5)
两两变量经过相关系数公式的分析以后,选取的高度相关组中的某一变量作为代表。如果则要根据实际的模型情况对变量约简进行分析。
在数据挖掘的整个过程中,数据的预处理的工作量能占到80%。电信业的IT系统众多,其企业结构数据异常复杂,客户的数据分布在呼叫中心、渠道支撑、计费帐务、结算系统等数据结构可能不同的系统中,高质量的数据能够更加准确地表示关联模型挖掘。
3 动态感知PSO的消费关联分析
关联挖掘算法是采用频繁项集的计算来进行,这种计算方式主要读取某种交易数据在交易库中出现的次数,没有把握这些数据中存在着的变化信息。粒子群优化算法(PSO)是群体智能中经典的优化算法,本文将粒子进行三元素的模式编码,通过目标函数的反馈动态调整粒子的更新,实验结果证明这种方法能够更加快速准确地对电信业客户消费进行关联分析。
PSO的思想是设计一定数目的粒子,在未知量的维空间中进行函数的最优化。电信业客户消费行为关联分析的粒子为;式中代表将要分析的消费属性的个数也就是搜索空间的维度,映射到关联挖掘中就代表交易中出现的项。本文使用三元素模式对粒子的具有时间属性的变量进行编码。经过合理的细分以后,不但可以表示每一个连续属性处的区间,还能将其所处的变化趋势表示出来。经过三元素编码的粒子可以表示为:该粒子是将式(3)进行时间压缩以后的对具有时间趋势属性比如本地通话费来进行的编码,第个粒子空间更新的速度示为;第个粒子的历史最优位置为;整粒子群的最优位置为,粒子可以根据如下的目标函数公式来进行速度与位置的更新: (6)
上式中
是分别表示设置的支持度与置信度。粒子的位置与速度更新的公式如下:
(7)
式(7)中, 为微粒群优化迭代次数,和是在区间[0,1]上的随机数,这两个随机数能够有效保持微粒群优化的多样性。和是两个学习因子通常取值为2,这两个系数可以保证粒子对全局位置的学习能力。可以有效维护全局与局部的搜索能力的平衡。一般的方法会将该值设为特定的经验值或者线性降低,这种方式经常会使函数极易收敛到局部的极值点。本文采用目标函数反馈的动态感知来调整的数值。
(8)
式(8)中与分别代表种群在与次的全局最优适应值。指数可以代表两次迭代中适应度值的比较率,当比值小于1的时候,迭代趋向总体收敛,此时的搜索步长越大全局搜索能力越强;当比值大于1的时候迭代趋向总体发散,步长越小,局部的搜索能力越强,上述系数的更新充分使用了目标函数的信息,整个搜索的启发性大大加强。
4 实验结果分析
本文基于中国电信某市分公司的2011年的客户消费数据库数据为基础进行实验仿真,数据主要采集于中国电信的BOSS、DSMP等数据系统共600000条数据记录。这些记录来自2011年的全年,本文在数据预处理阶段的时间划分采用每一周的时间周期进行区间划分。在Windows XP系统下结合 MATLAB的仿真平台进行算法的仿真训练。设定最小支持度与信任度下共进行了30条关联规则挖掘,以下部分规则及其支持度与置信度:
1)性别为女性—炫铃(s=3%,conf=70%)
2)性别为男性+手机报—掌中宽带(s=3%,conf=69%)
3)月消费金额大于600+掌中宽带—掌中股市(s=4%,conf=72%)
4)一周之内消费市话增长率大于1—家庭套餐(s=3%,conf=70%)
5)某段时间客户访问网站次数持续增加—掌中宽带(s=4%,conf=73%)
图2是对四种算法对不同支持度下某种规则挖掘的运行时间对比图:
从2图可以看出,经过群体智能的关联规则挖掘算法运行时间的性能有了很大的提高。
为了验证本文的关于时间趋势属性的编码与离散化对关联规则挖掘的准确度优势,引入了误荐率的评价指标,如果在关联中挖掘了某种客户消费的规则,可以采取对其推荐某项业务服务,如果不符合客户的需求则表现为一次错误推荐,误荐率用下式表示:
(11)
图3是对20个关联属性,300位客户进行了误荐率计算。采取传统的频繁项集获取方法与本文提出的时间趋势三元素编码的方法进行误荐率的对比:
图3可知在大部分的规则约束下,使用趋势属性的三元素编码以后进行PSO优化规则挖掘的误荐率小于传统的方法。这种算法能够切实反映客户的业务规则,提供更为高效的个性服务。
5 结束语
本文针对电信业中客户消费形式变化多样且数据量巨大的特点,结合传统的关联挖掘算法无法结合时间属性把握客户消费的变化趋势而出现关联误判,效率不高的问题。提出了动态感知PSO关联的电信业客户消费行为分析方法。在数据预处理的阶段使用时间点压缩法对连续数据进行离散化,粒子的编码使用包含趋势属性的三元素模式对粒子进行编码,为了保证粒子的更新能力与全局搜索能力的维持提出了两种粒子更新的动态感知变量。实验结果证明,这种方法在关联挖掘的过程中效率较高,误荐率得到了有效的控制具有很强的实用价值。
参考文献
[1]杜金刚.数据挖掘在电信客户关系管理及数据业务营销中的应用[D]. 北京邮电大学,2010
[2]林向阳.基于数据挖掘的电信客户流失研究综述[J].移动通信.2010(08):71-75
[3]张超.电信产业链整合与商业运营模式创新[D]西安邮电学院.2007
[4]章玥 邱雪松 孟洛明. 面向电信运营商务过程的管理服务构建方法[J].计算机应用研究. 2008(07):2124-2128
[5]王华秋 曹长修 何波. 改进RPE算法的神经网络在客户欺诈预测中的应用[J],计算机工程,2006(18):25-27
[6]郭明.基于数据挖掘的电信客户流失分析[D]南京.南京邮电大学,2005
[7]夏国恩 邵培基. 改进的支持向量分类机在客户流失预测中的应用[J].计算机应用研究.2009(06):2044-2046
[8]余建英.何旭宏.数据统计分析与SPSS应用[M]北京:人民邮电出版社,2003
关键词:电信业关联挖掘;变化趋势;三元素编码; PSO
中图分类号:TP301.6 文献标识码:A DOI:10.3969/j.issn.1003-6970.2013.06.014
0 引言
电信行业的竞争愈演愈烈使运营商面对着严重的客户流失的问题。如何将管理活动精确细分、重视营销的个性化来挽留客户防止客户流失成为各大运营商关注的焦点[1]。客户的日常通信行为为运营商积攒了大量的数据,这些数据蕴藏着丰富的客户消费行为习惯,对客户的消费行为、客户服务信息和缴费情况等数据进行分析挖掘可以对客户实施个性的客户业务推荐来挽留客户,提升客户价值[2-3]。通过关联规则进行客户的业务推荐是各大运营商常用的技术,伴随着各种改进的关联挖掘算法也出现了各种优秀的数据仓库与挖掘系统应用在电信业的客户消费行为数据挖掘中[4-5]。
客户在消费行为中常常存在着一定的趋势属性,传统的关联挖掘算法应用在电信业客户消费行为分析挖掘中仅仅将客户的消费记录数据进行单独的数据预处理,通过频繁项集的计算来进行支持度与置信度约束下的关联挖掘[6-7]。这种方法忽略了记录间存在的变化与联系,造成了关联挖掘的误判,挖掘的效果达不到要求。
为此提出了动态感知PSO关联的电信业客户消费行为分析方法。将群体智能的搜索优化技术通过目标函数的设计与关联规则挖掘进行联系。使用重要时间点压缩的方法对连续数据进行预处理与相似形度量,这种处理可以保留数据的趋势属性。通过包含时间变化的三元素微粒进行粒子的编码,并且通过目标函数的反馈来动态调整粒子的更新参数。实验证明,这种机制下的电信业客户消费行为关联挖掘准确率较高且挖掘的效率也大大提升,有很强的实用价值。
1 关联挖掘的数据预处理
电信业客户消费行为关联分析的数据源来自多个表或者系统,在客户的通信消费记录中大部分是连续型的数据,而关联规则处理的数据应该是离散型的数据。传统的离散方法是采用区间化的数据处理办法,将连续型的数据区间化分为不同的子区间,并且使用某一个数值代替该区间中的所有数据,设代表客户消费行为的某一属性,且,将划分为
每一个区间分别使用一个值来代表。这种处理方法会丢失数据中蕴藏的很多信息,特别是无法将客户消费行为的变化趋势信息保留。本文使用时间压缩的方法来进行数据的离散化。对离散化的数据使用相似形度量的方法来进行频繁模式的获取。
设客户的某一属性的时间变化趋势如下图的曲线所示:
图1 趋势属性的时间压缩图
在图1 中选取重要时间点作为区间的划分边界点,如上图横坐标的所示,设对应的属性数据值为,如果存在个子序列的划分,上述的曲线可以表示为:
(3)
为了描述上述的属性的趋势信息,使用最小二乘法的思想,将每一个序列分别拟合为直线,这样每一个区间就可以表示为一个元模式,,每一个元模式不但表述了该属性在区间的范围还相应提供了区间变化的趋势信息,这样时间序列的模式表示为:
(4)
将关注属性的压缩时间点进行同步后,对每一个时间序列的属性进行上述的区间化,不但可以表征该数据的区间范围,还将该数据所属的区间变化趋势表现,实际证明这种区间化的方法能够更好地应用在电信业客户消费行为的关联分析中。
在一些变量中由于业务的原因,某些变量之间存在着巨大的相关性,比如客户的长途次数与长途时间这样的变量在建模的过程中同时使用是没有必要的,有时对模型的运行还会存在一定的副作用。数据预处理中关于变量的约简就是尽量地减少信息量情况下寻找更低维的变量。主成份分析法是统计中最主流的约简方法,但是本身的结果就是若干信息量的综合,即使经过了因子旋转处理后也难于优化[8]。本文选用下面的两种简单的步骤进行维数简约:
1)利用众数的分析方法找出微效变量,特别是众数表示值为0的一些变量,比如某客户的国际长途次数这样的变量,就可以在模型中去掉。
2)利用相关系数的分析方法解决变量间存在的线性冗余的问题:
(5)
两两变量经过相关系数公式的分析以后,选取的高度相关组中的某一变量作为代表。如果则要根据实际的模型情况对变量约简进行分析。
在数据挖掘的整个过程中,数据的预处理的工作量能占到80%。电信业的IT系统众多,其企业结构数据异常复杂,客户的数据分布在呼叫中心、渠道支撑、计费帐务、结算系统等数据结构可能不同的系统中,高质量的数据能够更加准确地表示关联模型挖掘。
3 动态感知PSO的消费关联分析
关联挖掘算法是采用频繁项集的计算来进行,这种计算方式主要读取某种交易数据在交易库中出现的次数,没有把握这些数据中存在着的变化信息。粒子群优化算法(PSO)是群体智能中经典的优化算法,本文将粒子进行三元素的模式编码,通过目标函数的反馈动态调整粒子的更新,实验结果证明这种方法能够更加快速准确地对电信业客户消费进行关联分析。
PSO的思想是设计一定数目的粒子,在未知量的维空间中进行函数的最优化。电信业客户消费行为关联分析的粒子为;式中代表将要分析的消费属性的个数也就是搜索空间的维度,映射到关联挖掘中就代表交易中出现的项。本文使用三元素模式对粒子的具有时间属性的变量进行编码。经过合理的细分以后,不但可以表示每一个连续属性处的区间,还能将其所处的变化趋势表示出来。经过三元素编码的粒子可以表示为:该粒子是将式(3)进行时间压缩以后的对具有时间趋势属性比如本地通话费来进行的编码,第个粒子空间更新的速度示为;第个粒子的历史最优位置为;整粒子群的最优位置为,粒子可以根据如下的目标函数公式来进行速度与位置的更新: (6)
上式中
是分别表示设置的支持度与置信度。粒子的位置与速度更新的公式如下:
(7)
式(7)中, 为微粒群优化迭代次数,和是在区间[0,1]上的随机数,这两个随机数能够有效保持微粒群优化的多样性。和是两个学习因子通常取值为2,这两个系数可以保证粒子对全局位置的学习能力。可以有效维护全局与局部的搜索能力的平衡。一般的方法会将该值设为特定的经验值或者线性降低,这种方式经常会使函数极易收敛到局部的极值点。本文采用目标函数反馈的动态感知来调整的数值。
(8)
式(8)中与分别代表种群在与次的全局最优适应值。指数可以代表两次迭代中适应度值的比较率,当比值小于1的时候,迭代趋向总体收敛,此时的搜索步长越大全局搜索能力越强;当比值大于1的时候迭代趋向总体发散,步长越小,局部的搜索能力越强,上述系数的更新充分使用了目标函数的信息,整个搜索的启发性大大加强。
4 实验结果分析
本文基于中国电信某市分公司的2011年的客户消费数据库数据为基础进行实验仿真,数据主要采集于中国电信的BOSS、DSMP等数据系统共600000条数据记录。这些记录来自2011年的全年,本文在数据预处理阶段的时间划分采用每一周的时间周期进行区间划分。在Windows XP系统下结合 MATLAB的仿真平台进行算法的仿真训练。设定最小支持度与信任度下共进行了30条关联规则挖掘,以下部分规则及其支持度与置信度:
1)性别为女性—炫铃(s=3%,conf=70%)
2)性别为男性+手机报—掌中宽带(s=3%,conf=69%)
3)月消费金额大于600+掌中宽带—掌中股市(s=4%,conf=72%)
4)一周之内消费市话增长率大于1—家庭套餐(s=3%,conf=70%)
5)某段时间客户访问网站次数持续增加—掌中宽带(s=4%,conf=73%)
图2是对四种算法对不同支持度下某种规则挖掘的运行时间对比图:
从2图可以看出,经过群体智能的关联规则挖掘算法运行时间的性能有了很大的提高。
为了验证本文的关于时间趋势属性的编码与离散化对关联规则挖掘的准确度优势,引入了误荐率的评价指标,如果在关联中挖掘了某种客户消费的规则,可以采取对其推荐某项业务服务,如果不符合客户的需求则表现为一次错误推荐,误荐率用下式表示:
(11)
图3是对20个关联属性,300位客户进行了误荐率计算。采取传统的频繁项集获取方法与本文提出的时间趋势三元素编码的方法进行误荐率的对比:
图3可知在大部分的规则约束下,使用趋势属性的三元素编码以后进行PSO优化规则挖掘的误荐率小于传统的方法。这种算法能够切实反映客户的业务规则,提供更为高效的个性服务。
5 结束语
本文针对电信业中客户消费形式变化多样且数据量巨大的特点,结合传统的关联挖掘算法无法结合时间属性把握客户消费的变化趋势而出现关联误判,效率不高的问题。提出了动态感知PSO关联的电信业客户消费行为分析方法。在数据预处理的阶段使用时间点压缩法对连续数据进行离散化,粒子的编码使用包含趋势属性的三元素模式对粒子进行编码,为了保证粒子的更新能力与全局搜索能力的维持提出了两种粒子更新的动态感知变量。实验结果证明,这种方法在关联挖掘的过程中效率较高,误荐率得到了有效的控制具有很强的实用价值。
参考文献
[1]杜金刚.数据挖掘在电信客户关系管理及数据业务营销中的应用[D]. 北京邮电大学,2010
[2]林向阳.基于数据挖掘的电信客户流失研究综述[J].移动通信.2010(08):71-75
[3]张超.电信产业链整合与商业运营模式创新[D]西安邮电学院.2007
[4]章玥 邱雪松 孟洛明. 面向电信运营商务过程的管理服务构建方法[J].计算机应用研究. 2008(07):2124-2128
[5]王华秋 曹长修 何波. 改进RPE算法的神经网络在客户欺诈预测中的应用[J],计算机工程,2006(18):25-27
[6]郭明.基于数据挖掘的电信客户流失分析[D]南京.南京邮电大学,2005
[7]夏国恩 邵培基. 改进的支持向量分类机在客户流失预测中的应用[J].计算机应用研究.2009(06):2044-2046
[8]余建英.何旭宏.数据统计分析与SPSS应用[M]北京:人民邮电出版社,2003