论文部分内容阅读
随着信息采集技术和大容量、低成本存储设备的广泛应用,人们积累的数据呈现爆炸性的增长,但“数据爆炸但知识贫乏”问题的日渐突出,带来了对强有力的数据分析工具的需求,而数据挖掘的出现为这一需要提供了有力的技术支持。数据挖掘(Data Mining),也可以称为数据库中的知识发现,就是从海量数据中提取隐含在其中的、针对某些用户的信息的高级处理过程。 数据分类是数据挖掘的主要任务之一。所谓分类,就是从训练数据中发现同类数据对象的共同属性,建立类的判别模型,用以对新的数据所属类的识别。然而,用于分类的数据往往可能包含有数以百计的属性,其中大部分属性与挖掘任务可能是不相关或是弱相关的,因此,属性选择的好坏对于分类的结果有着很大的影响。属性选择(Attribute selection)就是一个从原有的属性集合中选择一个(相对某种评价准则)最优属性子集的过程。 本文提出了一个基于信息增益和卡方检验的属性选择算法。该方法由两部分组成,首先通过信息增益的计算,对原有的属性进行预处理,留下那些信息增益高(信息量大)的属性;然后利用卡方值的计算,选择那些卡方值大(与目标状态差异大)的属性,作为最后进行挖掘的属性集。 在竞争日益激烈的移动通信行业,如何降低运营成本、提供差异化服务、提高客户的忠诚度和满意度显得尤为重要。在这种情况下,运营商都希望能通过运用客户关系管理(CRM),达到保留有价值客户,挖掘潜在客户,赢得客户忠诚,并最终获得客户长期价值的目的。 在本文的最后,介绍了一下浙江移动的一个客户关系管理系统—离网预测模型的建立过程,并把本文提出的新的属性选择算法应用在这个模型中,取得了不错的效果。经实践证明,此算法在兼顾执行效率的同时,也取得了相当不错的预测准确率。