论文部分内容阅读
客户流失是所有电信企业所面临的严重问题,同时也是生存发展的主要障碍.如何利用电信企业长期积累的庞大的数据库资源,对客户的行为特征进行分析,为决策层的决策提供支持,是目前电信企业迫切需求的.若找到流失客户的特征,就可以在那些具有相似特征的客户还未流失之前,采取针对性的措施,从而减少企业的损失.
从客户消费的记录可以看出,在数据挖掘领域这是一个解决多维不等长不平衡时间序列的分类问题,解决这个问题是非常具有挑战性的.鉴于Markov模型在时间序列处理上的成功应用,本文将集中考虑如何将Markov模型用于电信的客户流失预测中去.本文分三个步骤合理的解决了序列数据的多维、不等长、不平衡这三个难点.首先采用一种基于模型的聚类算法——SOM,对序列数据进行预处理,很好的处理了序列数据的多维性,并且保留了序列的特征;然后基于Markov模型构建分类器,利用Markov模型的优点巧妙的解决了序列数据不等长这个问题;接着再利用构建出来的分类器用于不平衡数据的向下取样,以此尽可能的降低数据的不平衡性给分类器构建所带来的不利影响.通过以上三个步骤,最终输出了鲁棒性很强的分类器.在这篇文章中,叙述了主要的理论和算法,而且通过大量的实验表明此方法在电信的客户流失预测中可以有效地判别客户的类别.