论文部分内容阅读
近年来,随着智能电网的快速建设与发展,异常用电行为日渐猖獗,严重影响了电网系统的运行和供电企业的效益。研究一种新的异常用电行为检测方法不仅可以为电力公司提供重要的决策支持,而且在保障居民用电安全和维护电力市场正常运转上发挥了重要作用。同时,面对智能终端累积的海量用户用电信息,实现基于大数据平台的异常检测分析也是未来电力大数据发展的必然趋势。传统的单一异常检测方法对于具有随机性和不平衡性的海量用电数据分析存在效率低下的问题。本文针对该问题,以用电数据为基础,分析了用户在用电行为习惯上表现的不同特征,结合分类预测算法、不平衡数据处理技术,提出基于随机森林算法的不平衡数据分类。同时为应对海量数据所带来的指数级计算量增长问题,研究了基于大数据平台下异常用电行为检测算法的实现,大大缩短了预测算法的运行时间。本文所取得主要成果如下:(1)构建基于用户分类的异常用电行为分类预测模型。首先分析了用电数据集,对用电数据进行预处理,提取用电行为特征;其次,建立分类预测模型,并比较单分类器和集成学习方法在该模型上对异常用户的分类效果。实验结果表明随机森林算法在该分类预测模型上的分类性能优于决策树、朴素贝叶斯和KNN等传统分类算法。(2)提出基于随机森林的不平衡数据分类算法在异常用电行为检测上的应用。首先分析影响分类器性能的几大因素,针对本文所采用的用电数据集在类别分布不平衡的特点,提出基于不平衡分类的异常用电行为检测算法。实验对用电数据进行平衡化处理,重新提取用电特征,训练分类模型等,对比了基于数据处理和基于集成算法的几种不同不平衡分类方法在该分类预测模型上的分类效果。实验结果表明基于不平衡集成的随机森林算法在该用电数据集上分类性能最佳。(3)实现Spark平台上的异常用电行为检测算法及应用。构建基于大数据平台的分类预测模型,运用分布式计算框架,设计并实现基于不平衡分类的随机森林算法。对比了基于单机运行和Spark平台上的实现的几种算法平均运行时间,实验结果表明,在不影响算法分类性能的情况下,在Spark平台上实现的检测算法平均运行速度比单机版的提高了约20倍。基于大数据平台处理海量用电数据提升了异常用电行为检测算法的运行速度,缩短了异常检测时间。