论文部分内容阅读
[摘 要]分析真实用户数据能有效得出窃电用户名单,通过分析用户负荷数据,对数据进行预处理后进行聚类分析,从而确定嫌疑窃电用户,基于分类方法建立了决策树算法的反窃电模型,用实际案例验证有效。
中图分类号:TM73 文献标识码:A 文章编号:1009-914X(2016)12-0317-01
1 引言
随着我国电力生产的不断发展,整个电力市场的需求也在不断的提高,但窃电现象却日益严重。目前我国电力行业的窃电侦查手段主要通过人工巡查,此方法不仅需要花费大量人力物力,而且排查效率也很低。
本项目研究旨在通过分析实际电力用户真实用电数据,采用数据挖掘技术建立反窃电指标评价体系,发现窃电嫌疑用户,缩小窃电嫌疑用户数量和窃电侦查范围,提高反窃电工作效率。基于所建立的窃电嫌疑指标体系,能够确定窃电嫌疑用户群,方便后续侦查从嫌疑用户群中确定实际窃电用户。
2 负荷数据的预处理
本项目的所有研究数据均来自实际电力网络中的用户用电数据,研究对象是线损率较高的窃电重灾区。采用的样本数据为12个区块接近两年的各用户用电量数据。首先对复合数据进行处理,数据简化拟定了下面两种原则:删除无用数据和建立完整数据集。
4 基于分类方法的反窃电模型建立
4.1 数据挖掘分类算法
在获得窃电以及非窃电用户样本后,关键还要提取用电量数据的特征信息,据此建立分类模型,该分类模型可用于样本以外的用电数据分析,鉴别出其它样本是否窃电。本文采用数据挖掘中的决策树实现这个目标。
确定目标属性:用户是否为窃电嫌疑用户,是窃电嫌疑用户则目标属性为1,不是窃电嫌疑用户则目标属性为0。
确定分类属性:(存在该指标为1,不存在该指标为0)
(1) 冬夏季6个月是否存在单月用电量小于5度的情况;
(2) 是否出现连续3个月用电量情况均小于15度;
(3) 冬春用电比;
(4) 夏秋用电比。
目标及分类属性确定后,同时应用决策树方法,使用相同的训练样本和测试样本得出挖掘结果。
4.2 基于决策树算法的反窃电模型建立
应用决策树算法进行反窃电模型建立实现过程分为以下四步:
(1)基于数据预处理后的数据集将样本数据分为两个部分:训练样本和测试样本;计算出所有样本的分类属性共四种:月用电量月份、低月用电量月份、冬春用电比、夏秋用电比;以及目标属性一种:窃电与否。
(2)通过决策树训练函数对样本进行训练后得到决策树模型,通过决策树显示函数显示建立好的模型,并从中提取分类规则。
(3)应用建立的模型对训练样本进行结果预测。计算决策树的分类误差率,并用以评价分类效果。
(4)应用建立的模型对测试样本进行结果预测,将预测结果与测试样本实际窃电情况相比便可得到决策树算法预测的准确率。
4.3 实例结果分析
4.3.1 样本选取与属性值确定
基于前述窃电嫌疑评价指标的分析结果,我们选取12个区块中的其中11个区块的67个样本数据作为训练样本,剩下一个区块的12个样本数据作为测试样本,得到用户冬夏季是否存在单月过低用电、是否存在连续多月持续低用电、冬春用电比、夏秋用电比四个属性。
4.3.2 基于决策树算法的窃电嫌疑用户预测结果
基于决策树算法对窃电嫌疑用户进行训练,使用67个训练样本构建决策树模型,得到窃电嫌疑用户判别的决策树规则,计算该决策树的分类误差率为0.038,分类误差较小,结果比较理想,可以对测试数据进行结果预测。
应用所建立的决策树模型对12个测试样本进行测试,共检测出4个窃电用户,其具体分类属性冬夏季是否存在单月过低用电、是否存在连续多月持续低用电、冬春用电比、夏秋用电比四个属性为E2:1、1、0、,E3:1、1、0、1.67,E4:1、1、、,E4:1、1、0、。
实际情况获知E2为实际查处验证的真实窃电用户,验证了本文方法的可靠性和有效性。
5 结语
本文提出一种用于建立反窃电评价指标体系,针对电力用户的一种数据预处理方法(数据简化和数据剔除);建立了反窃电评价指标体系,确定窃电嫌疑用户,从原始7242户数据中筛选出617户窃电嫌疑用户;采用数据挖掘分类技术中的决策树方法建立反竊电模型,基于建立的模型对用户进行窃电与否的预测;基于数据挖掘分类方法的窃电嫌疑用户判别结果与聚类算法判别结果具有一致性,一定程度上说明数据挖掘方法应用于窃电预测具有可行性和可靠性。
中图分类号:TM73 文献标识码:A 文章编号:1009-914X(2016)12-0317-01
1 引言
随着我国电力生产的不断发展,整个电力市场的需求也在不断的提高,但窃电现象却日益严重。目前我国电力行业的窃电侦查手段主要通过人工巡查,此方法不仅需要花费大量人力物力,而且排查效率也很低。
本项目研究旨在通过分析实际电力用户真实用电数据,采用数据挖掘技术建立反窃电指标评价体系,发现窃电嫌疑用户,缩小窃电嫌疑用户数量和窃电侦查范围,提高反窃电工作效率。基于所建立的窃电嫌疑指标体系,能够确定窃电嫌疑用户群,方便后续侦查从嫌疑用户群中确定实际窃电用户。
2 负荷数据的预处理
本项目的所有研究数据均来自实际电力网络中的用户用电数据,研究对象是线损率较高的窃电重灾区。采用的样本数据为12个区块接近两年的各用户用电量数据。首先对复合数据进行处理,数据简化拟定了下面两种原则:删除无用数据和建立完整数据集。
4 基于分类方法的反窃电模型建立
4.1 数据挖掘分类算法
在获得窃电以及非窃电用户样本后,关键还要提取用电量数据的特征信息,据此建立分类模型,该分类模型可用于样本以外的用电数据分析,鉴别出其它样本是否窃电。本文采用数据挖掘中的决策树实现这个目标。
确定目标属性:用户是否为窃电嫌疑用户,是窃电嫌疑用户则目标属性为1,不是窃电嫌疑用户则目标属性为0。
确定分类属性:(存在该指标为1,不存在该指标为0)
(1) 冬夏季6个月是否存在单月用电量小于5度的情况;
(2) 是否出现连续3个月用电量情况均小于15度;
(3) 冬春用电比;
(4) 夏秋用电比。
目标及分类属性确定后,同时应用决策树方法,使用相同的训练样本和测试样本得出挖掘结果。
4.2 基于决策树算法的反窃电模型建立
应用决策树算法进行反窃电模型建立实现过程分为以下四步:
(1)基于数据预处理后的数据集将样本数据分为两个部分:训练样本和测试样本;计算出所有样本的分类属性共四种:月用电量月份、低月用电量月份、冬春用电比、夏秋用电比;以及目标属性一种:窃电与否。
(2)通过决策树训练函数对样本进行训练后得到决策树模型,通过决策树显示函数显示建立好的模型,并从中提取分类规则。
(3)应用建立的模型对训练样本进行结果预测。计算决策树的分类误差率,并用以评价分类效果。
(4)应用建立的模型对测试样本进行结果预测,将预测结果与测试样本实际窃电情况相比便可得到决策树算法预测的准确率。
4.3 实例结果分析
4.3.1 样本选取与属性值确定
基于前述窃电嫌疑评价指标的分析结果,我们选取12个区块中的其中11个区块的67个样本数据作为训练样本,剩下一个区块的12个样本数据作为测试样本,得到用户冬夏季是否存在单月过低用电、是否存在连续多月持续低用电、冬春用电比、夏秋用电比四个属性。
4.3.2 基于决策树算法的窃电嫌疑用户预测结果
基于决策树算法对窃电嫌疑用户进行训练,使用67个训练样本构建决策树模型,得到窃电嫌疑用户判别的决策树规则,计算该决策树的分类误差率为0.038,分类误差较小,结果比较理想,可以对测试数据进行结果预测。
应用所建立的决策树模型对12个测试样本进行测试,共检测出4个窃电用户,其具体分类属性冬夏季是否存在单月过低用电、是否存在连续多月持续低用电、冬春用电比、夏秋用电比四个属性为E2:1、1、0、,E3:1、1、0、1.67,E4:1、1、、,E4:1、1、0、。
实际情况获知E2为实际查处验证的真实窃电用户,验证了本文方法的可靠性和有效性。
5 结语
本文提出一种用于建立反窃电评价指标体系,针对电力用户的一种数据预处理方法(数据简化和数据剔除);建立了反窃电评价指标体系,确定窃电嫌疑用户,从原始7242户数据中筛选出617户窃电嫌疑用户;采用数据挖掘分类技术中的决策树方法建立反竊电模型,基于建立的模型对用户进行窃电与否的预测;基于数据挖掘分类方法的窃电嫌疑用户判别结果与聚类算法判别结果具有一致性,一定程度上说明数据挖掘方法应用于窃电预测具有可行性和可靠性。