基于云理论与粗糙集的电信家庭客户聚类分析预处理研究——以江西电信数据为例

来源 :同济大学经济与管理学院 同济大学 | 被引量 : 0次 | 上传用户:hello_junz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中国电信行业是目前增长最快的行业之一,同时也面临着激烈的竞争。随着“移动取代固话”的趋势越来越明显,客户资源成为各电信企业竞争的重点,特别是对高价值客户的争夺愈演愈烈,正确认识企业客户群是保留和争夺客户资源的基础。江西电信希望通过聚类分析从行为属性和账务属性辅以背景属性和成本属性来了解自己家庭客户的特征,然而这四个属性下面包含了500左右个属性,本文试图运用粗糙集和云理论对江西电信数据进行预处理,从而选择出些有代表性的属性来刻画江西电信家庭客户的特征。 本文对数据挖掘中数据预处理进行了详尽的分析,比较当前学术界中存在几种数据预处理步骤,并将本文的数据预处理步骤界定为:数据清理、数据集成、数据转换、数据规约,介绍了数据预处理每个步骤可以运用的理论和原理。 本文的整体思路是首先对领域专家给出的23个属性进行聚类分析,以此作为经过预处理后的数据的聚类能力的评价标准,在此思路下,本文首先对江西电信数据进行了数据补全,主要运用分析方法分析缺失数据产生的原因并对缺失数据进行针对性补全。为了得到更好的挖掘结果,本文利用SAS清理了江西电信数据中的异常点。 由于云理论的亦此亦彼性,本文运用云理论的该特性对江西电信数据进行了离散,通过与其它离散算法比较,发现运用云理论进行离散取得了比较好的效果。本文对冗余属性来源进行了分析,并引入粗糙集理论中的属性重要度来作为属性选择的依据,且据此提出了属性选择的算法。在成功进行属性选择后,将进行预处理后的数据和没进行数据预处理的数据的分类能力进行了比较。 最后对全文进行了总结,并对进一步的研究进行了展望。
其他文献
当前,随着Internet技术的进步,越来越多的用户可以接触到网络,但是随之而来,网络安全问题也越来越受人关注,黑客可以不经授权随意进入网路并进行破坏。本文提出一种解决网络安全问
中国商品市场自改革开放以来出现了前所未有的历史性巨变,其繁荣兴旺的状况令世界嘱目。同时在市场经济发育初期的中国商品市场也出现了令人忧虑的现象。犹为突出的是假冒伪劣
经过近十年的发展,目前高校的信息化已经进入到了全面、快速的发展阶段。随之而来的信息共享和数据整合的问题就显得突出而迫切。很多学校在进行校园网和各级应用系统的建设
海水入侵是现代社会具有特色的资源与环境问题,是沿海地区常见的环境恶化现象。目前,全世界已经有几十个国家和地区发现了海水入侵问题,给各国沿海地区带来严重危害,造成巨大