论文部分内容阅读
随着智能配电网的快速发展,用户用电信息数据的采集维度和频率均有大幅度增加,电力用户用电信息构成了海量大数据。如何对这些海量用电信息进行分析处理以获得其中有用的信息是一个值得深入研究的问题。采用大数据技术对用电设备运行数据进行数据挖掘,分析得到用户用电习惯和设备运行规律,能够帮助用户改进用电计划,供电部门全面掌握用户的用电情况。研究基于大数据的智能用电信息采集与分析系统,能够提高企业和居民用电水平,降低企业成本和居民生活支出,对发展低碳经济、节能减排、环境保护具有十分重要的现实意义。为此本文针对基于大数据智能用电信息分析系统展开研究,具体工作如下。首先提出了一种基于Hadoop大数据生态集群的智能用电信息分析系统架构,并搭建了由三台物理机组成的并行计算网络。智能用电信息分析系统由分布式计算框架Spark,Map Reduce、分布式存储机制HDFS、分布式管理YARN和分布式服务框架Zookeeper组成,实现了用电信息的数据采集、数据存储、数据管理和数据分析。其次,利用大数据技术,结合用户画像,对用户用电规律进行聚类分析,采用Mlib下的分布式并行化K-means算法,在Spark平台框架下对智能用电信息数据进行聚类分析,算例表明该算法具有较高的计算效率。第三,提出了一种计及负荷数据高阶特征的并行DeepFM短期负荷预测算法,通过把高阶特征和低阶特征分别导入Deep模型和FM模型,将训练后的结果合并后导入全连接层输出预测结果。算例表明引入负荷数据高阶特征后可以降低负荷预测误差,经过与LR、FM算法的基尼系数和AUC曲线对比,证明了该算法的有效性。本文构建了大数据用户用电信息分析系统,使用大数据Hadoop,Spark技术实现了用户用电特征的数据采集,数据分析和数据处理,采用并行DeepFM短期负荷预测算法提高了短期负荷预测的精度,具有较大的实际应用价值和广泛的应用前景。