论文部分内容阅读
电力系统对生产、管理、运营过程的实时监控范围更广、粒度更细,积累的实时数据量呈指数级增长,如何快速、实时的处理流数据成为研究热点。分布式的流处理技术使得流数据进行及时分析成为可能。Storm是Twitter公司开源的分布式、常用在实时计算技术,在实时分析、线机器学习、连续计算等领域。目前,Storm在网站信息、用户画像、实时推荐等领域已取得不错的效果。本文以‘’Storm在电力大数据分析平台中的研究与应用”为课题,旨在将Storm技术与电力大数据平台相结合,提出电力系统中海量实时数据的处理方案。主要研究内容有:1、研究分布式的流处理平台及典型代表。分析Storm、S4、SparkStreaming各自的架构特点,从系统架构、数据模型、故障恢复等方面进行对比;研究Storm集群及流数据处理过程涉及的相关技术,如ZooKeeper、Kafka等。2、深入分析Storm集群架构及处理模型,研究Storm数据流处理策略,包括Storm流分组策略及实时数据无损处理算法;通过实例,测试Storm在不同拓扑、不同参数配置情况下的性能,包括CPU使用率、系统吞吐量及处理延时等方面,分析Storm性能瓶颈,以支持系统扩展。3、将Storm与电力大数据平台相结合,设计基于Storm的流数据处理过程。在分析电力流数据处理需求的基础上,提出一种分层的、多种计算模式混搭的电力大数据平台架构;针对电力系统流数据的特点及处理需求,提出基于Storm的实时数据处理方案,添加Kafka消息队列辅助数据采集、在对数据进行格式化去重等预处理操作后,传至具体处理逻辑螺栓,结果存入HBase。4、Storm在输变电设备状态监测系统中的应用。研究输变电状态监测系统,从状态监测的三个基本步骤(数据采集、特征量提取和状态评估)入手,以输电线路绝缘子状态监测为例,分析状态监测流数据的处理过程,而后实现基于Storm的状态监测整个流程,并给出系统展示图。