论文部分内容阅读
中国电信行业是目前增长最快的行业之一,同时也面临着激烈的竞争。随着“移动取代固话”的趋势越来越明显,客户资源成为各电信企业竞争的重点,特别是对高价值客户的争夺愈演愈烈,正确认识企业客户群是保留和争夺客户资源的基础。江西电信希望通过聚类分析从行为属性和账务属性辅以背景属性和成本属性来了解自己家庭客户的特征,然而这四个属性下面包含了500左右个属性,本文试图运用粗糙集和云理论对江西电信数据进行预处理,从而选择出些有代表性的属性来刻画江西电信家庭客户的特征。
本文对数据挖掘中数据预处理进行了详尽的分析,比较当前学术界中存在几种数据预处理步骤,并将本文的数据预处理步骤界定为:数据清理、数据集成、数据转换、数据规约,介绍了数据预处理每个步骤可以运用的理论和原理。
本文的整体思路是首先对领域专家给出的23个属性进行聚类分析,以此作为经过预处理后的数据的聚类能力的评价标准,在此思路下,本文首先对江西电信数据进行了数据补全,主要运用分析方法分析缺失数据产生的原因并对缺失数据进行针对性补全。为了得到更好的挖掘结果,本文利用SAS清理了江西电信数据中的异常点。
由于云理论的亦此亦彼性,本文运用云理论的该特性对江西电信数据进行了离散,通过与其它离散算法比较,发现运用云理论进行离散取得了比较好的效果。本文对冗余属性来源进行了分析,并引入粗糙集理论中的属性重要度来作为属性选择的依据,且据此提出了属性选择的算法。在成功进行属性选择后,将进行预处理后的数据和没进行数据预处理的数据的分类能力进行了比较。
最后对全文进行了总结,并对进一步的研究进行了展望。