论文部分内容阅读
随着网络规模扩容和智能设备的应用,智能配电网正迈向能量与信息互动,海量信息处理和智能调度方向发展,某些工业配电网量测点剧增、模拟量变化快,波动幅度大等特性尤为突出,这些信息在调度监控系统的显示处理中需要不断进行信息存取,长期运行将产生大数据集信息,海量信息不仅是信息传输交互的障碍,也将影响到应用信息的查询处理,直接针对海量大数据集信息进行存取处理,容易使信息延迟、存取速度慢,不仅影响系统实时性,严重时甚至造成关键信息的迟报或漏报,导致报警延迟或消失,直接威胁安全调度和实时控制。量测大集信息的有效处理已成为配电网自动化的关键技术问题之一。所以需要对大数据集信息研究有效的存储和压缩处理技术。本课题针对铁道电网调度海量信息流的实时存储和压缩处理进行研究,采用新的Hadoop云计算及Hive数据仓库框架技术对海量信息进行分布式云存取和集群压缩处理,解决电力调度信息流存储困难问题,旨在确保调度安全和供电可靠性。本课题针对智能调度系统中的大数据集信息压缩处理问题,利用Hadoop框架和Map/Reduce分布式编程模型,进一步结合数据仓库Hive框架技术,提出了一种基于云架构的分布式集群无损压缩新方法。首先利用公共信息的关联关系,建立调度监控的公共信息对象实体及其关键数据业务信息流,解决海量关键数据业务信息集成问题;然后研究和比较目前四种主流无损压缩算法差异性,利用云计算节点的网络配置方式部署调度主机和监控服务器的集群环境,在集群数据节点中融入无损压缩格式,建立调度监控信息的集群无损压缩实验环境。将Deflate、GZip、BZip2和Lzo四类无损压缩编码融入Map/Reduce云计算任务,利用调度端的断面量测记录集进行测试研究。以调度监控系统中的量测值存取为例进行研究,结果表明:针对四种无损压缩格式,在断面记录超过3百万以上时,BZip2集群压缩效果更好,可达到约81.1%,通过逐步增加断面记录数,利用Hive数据仓库,使压缩比进一步达到约85%,因此,分布压缩方法适合在监控历史信息压缩处理中应用。相比而言,Lzo集群压缩速度快,约为BZip2的5倍,对500万记录数据的处理时间达28秒左右,即平均每秒能压缩17.8万个量测信息,满足工程应用中2s动态刷新量测数据的应用需求。