论文部分内容阅读
电力数据采集与监控系统(Supervisory Control and Data Acquisition,SCADA)是电力系统安全高效运行的重要保障。利用SCADA系统记录的相关数据对电力负荷进行预测,对电力系统的发电控制与电力调度相关的经济效益有重要影响。随着SCADA系统日趋复杂化与网络化的发展,系统中记录的由当前系统的运行状态数据组成的历史运行状态的数据,不仅在量上逐渐扩大,而且随着系统集成度逐渐提高,数据维度也在不断上升。此外,逐渐丰富的负荷相关性信息,例如温度,节假日信息等都逐渐的整合进SCADA系统,都为更精确的负荷预测创造条件,吸引了越来越多的方法和模型在负荷预测领域中的应用实践。为了提高负荷预测的精度与速度,在对SCADA系统数据分析层面的物理架构进行集群化改造的基础上,采用基于Spark分布式计算平台与机器学习算法相结合的方法对电力系统负荷预测进行研究。主要完成了下面几方面的工作:首先,从改善系统的底层设计出发,深入研究了SCADA系统的物理分层,对每一层可以进行的分布式处理进行梳理,在此基础上提出了一种在原有数据中心的基础上整合分布式计算平台的面向网络的SCADA系统架构。不仅保证了原有系统功能的正常运行,也允许新的计算框架部署到SCADA系统中,实现了系统的无级扩展。其次,在构建的混合架构的基础上,以电力负荷预测这个典型的场景为主要的研究对象。对进入SCADA系统的负荷数据,使用基于Spark MLlib的k均值++算法进行聚类,用距离簇中心的距离来发现系统中的异常数据。依据正常数据和聚类中心对异常数据进行修复。从修正后的数据中提取出需要的负荷值,结合从SCADA系统中提取出的负荷相关数据组成特征向量,传递给MLlib中的决策树模型和随机森林模型进行交叉验证,寻找出最优参数模型。最后,为了验证模型的实际效果,采用欧洲智能技术网络(EUNITE)提供的真实负荷数据及其相关数据,基于Spark机器学习流水线(ML Pipeline)构建工作流。结果分析表明,该方法精度上不仅优于传统的泛化神经网络算法,而且优于基于MapReduce的极限学习和支持向量机预测算法。