论文部分内容阅读
随着市场经济的发展,我国的电力企业逐渐由生产型企业转为经营型企业,市场营销的概念随之进入到电力行业。因此,如何对用电客户的行为进行分析和预测也随之成为电网企业在市场营销中的重要工作。另一方面,随着近年来电网信息化水平的不断提高,电网企业的各类信息管理系统正不断地积累了大量的用户数据。如何开发一个数据挖掘系统并利用不断产生的电网用户数据来对客户行为进行分析和预测是本文要解决的主要问题。现有的信息管理系统大多只能对这海量的用户数据进行简单的增删查改操作,无法挖掘和利用隐含在数据深层的关系和规则,更无法依据这些关系和规则预测用户行为的发展趋势。针对上述状况,本文构建了一个适用于电网企业的用户行为分析系统并实现了部分经典的数据挖掘算法,该系统能够对现有信息管理系统留下来的大量用户数据进行分析,挖掘出其中深层的关联规则,并转变为决策型信息,这些决策型信息能够辅助电网企业的市场营销决策并提高其客户服务水平。本课题来自于中国南方电网公司数据中心营销域的分析模型研究项目,研究内容包括电量、电费和用电客户行为三大主题。基于项目组的一系列理论分析和算法研究,本人主要负责用电客户行为分析系统的实现工作,对用电客户行为的理论分析和算法研究成果进行了实现,做成了一个基于SSH框架的、采用B/S架构的、基于数据挖掘技术的电网用户行为分析系统。本系统实现了从数据采集、数据预处理、数据挖掘到结果分析的数据挖掘的全过程的主要功能,可以利用该系统进行用电客户细分、客户信用等级评估和欠费高风险客户预测这三大主要的用户行为分析需求。系统分成五大模块:数据采集、数据预处理、数据挖掘、结果分析以及系统管理。在系统的数据预处理模块中,本人针对连续值和离散值数据实现了忽略缺失数据、删除负值、常量值填充、整体均值填充、最可能值填充、回归方法填充等数据清洗方法;直接删减、卡方检验、信息增益、信息增益率等数据归约方法;按小数定标、最大最小值、Z-SCORE等数据转换方法。而在系统最核心的数据挖掘模块中,本人实现了朴素贝叶斯、ID3决策树、层次分析法、KNN和K-means等多种数据挖掘算法,能够有效地对上述三大电网用户行为分析需求的进行分析和预测。