论文部分内容阅读
随着计算机网络和信息技术的发展,伴随而来的是大数据时代。大数据具有高维性、非线性、不平衡性,甚至是不确定性的特点,从海量数据中提取有价值的信息是一个难点。对于企业发展来说,大数据处理更具有重要的意义,因为“客户数据”中含有重要的信息。客户流失预测分析就是对大量客户数据进行分类预测处理,而大数据的特点都将会影响到客户流失预测结果的准确性。通过对大量的客户历史数据进行建模从而对未来客户数据进行分析进行分类。数据分类的问题一直是数据研究的一个热点,以往的分类预测主要以统计学和人工智能的方法为主。支持向量机具有对海量数据的不敏感型而更适合大数据的分类处理,结合K临近算法的二次分类处理将使得分类效果进一步提高。选择性集成学习是从训练的分类器中基于某种标准进行分类器选取,之后按照某种方式进行组合从而形成的一种模型。本文基于改进的支持向量机和K临近算法以及选择性集成学习这两种方法进行客户流失分类问题的研究,主要工作内容如下:1.应用支持向量机和K临近算法对客户的分类预测进行研究。海量客户历史数据经过预处理之后,流失的客户数目在整个客户历史数据中比例很小,是典型的不平衡数据分类。为了提高不平衡的客户流失数据分类模型的准确性,首先对正负类数据进行求解曼哈顿距离。通过调节正负类的权重,消除了由于数据不平衡带来分类偏差。利用改进的支持向量机对训练数据进行建模,用训练之后的模型对未来测试集进行初次分类,再利用K临近算法进行局部的二次分类,使得个别错分的数据进行了分类纠正。结合某电信真实数据进行了验证,实验结果显示较好。2.针对单一分类模型进行数据分类的局限性问题,利用选择性集成策略对客户流失的数据进行分类。首先选择贝叶斯、决策树、神经网络和支持向量机作为基分类器,通过循环进行训练多个分类器并基于测试集求得每个分类器的分类准确率。本文基于分类器预测准确率的高低进行截取式的选取进行选择性集成,使的组合的分类模型具有最好的分类准确率,之后采取高斯加权对选择的基分类器再进行加权组合。通过对客户流失真实数据进行分类预测,得出高斯加权的选择性集成学习在分类准确率、提升系数衡量参数方面获得较好效果。本文提出两种针对客户流失数据的分类方法。针对数据的不平衡性的问题,改进的支持向量机对于分类为偏离问题给予校正,之后利用K临近算法局部的二次分类,通过两次的处理可以得到较好的分类效果。单一的分类器模型对于数据的分类具有一定的局限性,通过选择性集成学习进行组合性能优良的分类器,达到缺陷互补的目标,采用高斯加权的选择性集成在实际的试验中取得较好结果。以上两种客户流失预测分类方法为客户关系管理提供参考。