论文部分内容阅读
内蒙古电力(集团)有限责任公司巴彦淖尔电业局信息通信处 内蒙古 巴彦淖尔市 015000
【摘 要】智能电网系统在我国的应用日渐广泛,大数据处理技术已然是智能电网安全运行的有利武器。但在电网智能化的发展进程中,实时、隐私等方面的性能需求对大数据技术本身提出了更严峻的挑战,鉴于此,本文对智能电网电力大数据技术进行了分析探讨。
【关键词】智能电网;大数据;技术
一、智能电网中大数据的特点
智能电网业务中的基本数据按内容可以划分成三大类。
(1)运行数据、设备检测数据、设备实时状态参数数据。
(2)电力企业营销数据(用电客户、电量报价等)。
(3)电力企业管理数据。在上述类目可以再次细化为结构化数据和非结构化数据两大类。但无论基于何种分类方式,大数据在智能电网中体现出来的特点是不变的,简单概括为体量大、类型多,具体如下:(1)数据体量大:即数据的数量和体积较为庞大。在智能时代的推动下,电网在数据吞吐量的级别已经从以往的TB级飙升为PB级。(2)数据类型繁杂:由于电力企业自身存在的特殊性,加之其地理分布情况在区域上的差异性,电网企业涉及到的数据有着极为复杂的类别划分,细分后的子类和子项同样在数量上非常庞大,也正是由于这一特点,不同的数据类别对服务器端硬件设备及用户端的系统平台均有不同程度的配置、性能及处理需求,从而更是增加了电网企业内网及外设双重建设项目的难度。
(3)数据价值密度低:异常数据出现的频率低,同时也是对电网软、硬件设备维修和检测最有价值的。
二、智能电网大数据关键技术
1、多源异构数据的聚合管理技术
电力大数据的数据集成管理技术,包含关系型和非关系型数据库技术、数据融合和集成技术、数据抽取技术、过滤技术和数据清洗等。电力大数据的来源极其广泛,数据类型极为繁杂,且数据质量不高,准确性、及时性均有所欠缺,对于这种多源异构数据的聚合管理技术也提出了更高的要求。首先必须对数据源的数据进行抽取和集成,现有的数据抽取与集成方式主要是基于ETL引擎的方式和基于搜索引擎的方式等,首先把数据抽取成文件,再对数据文件进行转换和清洗,最后生成多维度、多粒度的分析型数据并存储到数据仓库中。云计算技术中的分布式存储技术满足了电网海量数据的存储需求,因此云计算技术推出不久,电力云的概念就被提出来。可信的云存储模型的建立,解决了结构化和非结构化数据的统一存储与安全管理问题。虽然分布式计算方法可以大大提高计算机的存储空间,但是不能满足电力数据的实时性要求。因此存储时需要对数据进行分级、分类,如对性能要求高的实时数据需采用实时数据库系统进行存储,对历史数据采用分布式文件系统存储,对核心业务数据则使用传统的并行数据仓库系统存储,形成完整的数据库分级存储系统。这种层次式和分布式存储和集成系统,利用海量多源异构数据存储、组织、管理最新技术,保证了数据存储的完整性与访问的高效性。
2、复杂数据处理技术
电力大数据处理技术主要解决大数据的实时处理和批处理问题。目前主要采用分布式计算技术、内存计算技术、实时流数据计算技术等来解决大数据的处理问题。分布式计算主要解决计算机分布式计算和存储的问题。分布式计算典型的例子是Google文件系统(Google File System,GFS),随后Yahoo开发了该系统的开源版本Hadoop,Hadoop集群系统具有成本低廉、灵活性强等优点,同时还支持海量数据存储和计算。已有研究针对智能电网状态监测的特点,基于Hadoop并利用其它虚拟化技术和分布式存储技术存储和管理数据,以实现对电力大数据的高效管理。
内存计算技术主要解决大数据的实时处理问题。SAP HANA是基于内存计算技术的高性能实时数据计算平台,有研究表明SAPHANA可以提高计算速度几十到上百倍。随着内存价格的不断下降,内存计算已经具备物质基础,这也在一定程度上解决了海量数据的实时处理问题。文献中介绍了使用改良ApacheSpark作为执行引擎的内存计算引擎计算框架,采用轻量级的调度框架和多线程计算模型,与传统的Mapreduce框架相比,消除了频繁的I/O磁盘访问并降低了调度与启动开销。电力大数据包括实时监测数据、企业营销数据等,它们以一种顺序、大量、快速的方式呈现,可以被看作一种流式数据。流式大数据呈现出实时性、易失性、突发性、无序性、无限性等特征,对系统提出了很多新的更高的要求。S4流式计算系统和Storm流式计算系统的推出,在一定程度上推动了大数据流式计算技术的发展和应用。但是,这些系统在可伸缩性、系统容错、状态一致性、负载均衡、数据吞吐量等诸多方面仍然存在着明显不足。目前,分布式数据流实时计算系统在学术界和工业界都处于初步探索阶段。大数据流式计算技术应设计分布式多模态计算框架,选择能与Hadoop架构兼容的计算框架,调整各种计算框架中数据及索引访问模块,二次开发统一的计算任务调度模块,设计并开发统一的分布式环境。将流数据技术应用于电力系统可为决策者提供即时依据,满足实时的分析需求。
3、智能电网大数据展现技术
由于电力信息平台中信息体量大、且随時间不断变化,难以将所有信息一次性呈现给用户,所以要切实通过可视化技术对这些数据进行处理,使得异常数据在屏幕上较为清晰的呈现出来。针对不同类型的电力大数据,可视化方案也有所区别:首先对于电网运行数据,根据其高维、时序、快速的特点,应采取信息可视化与可视分析结合的技术方法进行处理。针对电力客户数据,客户数据主要来自用电终端信息采集系统。将用户电量信息与用户地理区域对应起来,可实现用户用电行为分析与负荷特性的可视分析。另外还可以结合地理信息系统绘制地区电力客户地图,并按照一定的权限向公众开放该全景分析图,实现用户的用电互动服务,实时反馈购、用电信息。最后是面向电网企业管理数据,可根据其不同业务部门的特点进行不同的可视化分析。
由于三维模型数据量较大,需要尽可能减小三维模型数据量,研究表明从纹理与几何两个方面对模型进行压缩,生成多种细节层次模型,以支持三维模型的动态可视化。而多细节层次技术需要解决的问题之一是如何快速地对多边形网格进行简化,以生成多分辨率模型,采用简化网格模型的算法,针对实时的虚拟场景中,保证了简化模型的连续性、实时性、保持外观特征性,使得原有的数据存储结构得以重复利用。已有研究提出基于模型组件化动态WEB 3D虚拟现实场景的搭建方法及系统,模型可以在虚拟现实项目中进行复用,减少在场景搭建中模型使用的冗余,并提高用户体验。
目前电网企业大数据挖掘分析工作虽然不断取得新的突破,但是将相关数据绘制成高精度、高分辨率的图片的业务模型、智能算法和交互式图形处理工具开发的研究才刚起步,相关可视化系统的功能实现需要进一步予以研究开发。
结束语
本文阐述了智能电网中大数据的数据特点以及应用价值,重点介绍了目前智能电网中大数据聚合管理、分析处理以及数据展示的关键技术,为我国智能电网大数据处理提供参考。
参考文献:
[1]李鹏.智能电网运营管理风险元传递模型及决策支持系统研究[D].华北电力大学,2014.
[2]魏亚楠.智能电网中多种发电模式联合调度模型及效益评价研究[D].华北电力大学,2014.
【摘 要】智能电网系统在我国的应用日渐广泛,大数据处理技术已然是智能电网安全运行的有利武器。但在电网智能化的发展进程中,实时、隐私等方面的性能需求对大数据技术本身提出了更严峻的挑战,鉴于此,本文对智能电网电力大数据技术进行了分析探讨。
【关键词】智能电网;大数据;技术
一、智能电网中大数据的特点
智能电网业务中的基本数据按内容可以划分成三大类。
(1)运行数据、设备检测数据、设备实时状态参数数据。
(2)电力企业营销数据(用电客户、电量报价等)。
(3)电力企业管理数据。在上述类目可以再次细化为结构化数据和非结构化数据两大类。但无论基于何种分类方式,大数据在智能电网中体现出来的特点是不变的,简单概括为体量大、类型多,具体如下:(1)数据体量大:即数据的数量和体积较为庞大。在智能时代的推动下,电网在数据吞吐量的级别已经从以往的TB级飙升为PB级。(2)数据类型繁杂:由于电力企业自身存在的特殊性,加之其地理分布情况在区域上的差异性,电网企业涉及到的数据有着极为复杂的类别划分,细分后的子类和子项同样在数量上非常庞大,也正是由于这一特点,不同的数据类别对服务器端硬件设备及用户端的系统平台均有不同程度的配置、性能及处理需求,从而更是增加了电网企业内网及外设双重建设项目的难度。
(3)数据价值密度低:异常数据出现的频率低,同时也是对电网软、硬件设备维修和检测最有价值的。
二、智能电网大数据关键技术
1、多源异构数据的聚合管理技术
电力大数据的数据集成管理技术,包含关系型和非关系型数据库技术、数据融合和集成技术、数据抽取技术、过滤技术和数据清洗等。电力大数据的来源极其广泛,数据类型极为繁杂,且数据质量不高,准确性、及时性均有所欠缺,对于这种多源异构数据的聚合管理技术也提出了更高的要求。首先必须对数据源的数据进行抽取和集成,现有的数据抽取与集成方式主要是基于ETL引擎的方式和基于搜索引擎的方式等,首先把数据抽取成文件,再对数据文件进行转换和清洗,最后生成多维度、多粒度的分析型数据并存储到数据仓库中。云计算技术中的分布式存储技术满足了电网海量数据的存储需求,因此云计算技术推出不久,电力云的概念就被提出来。可信的云存储模型的建立,解决了结构化和非结构化数据的统一存储与安全管理问题。虽然分布式计算方法可以大大提高计算机的存储空间,但是不能满足电力数据的实时性要求。因此存储时需要对数据进行分级、分类,如对性能要求高的实时数据需采用实时数据库系统进行存储,对历史数据采用分布式文件系统存储,对核心业务数据则使用传统的并行数据仓库系统存储,形成完整的数据库分级存储系统。这种层次式和分布式存储和集成系统,利用海量多源异构数据存储、组织、管理最新技术,保证了数据存储的完整性与访问的高效性。
2、复杂数据处理技术
电力大数据处理技术主要解决大数据的实时处理和批处理问题。目前主要采用分布式计算技术、内存计算技术、实时流数据计算技术等来解决大数据的处理问题。分布式计算主要解决计算机分布式计算和存储的问题。分布式计算典型的例子是Google文件系统(Google File System,GFS),随后Yahoo开发了该系统的开源版本Hadoop,Hadoop集群系统具有成本低廉、灵活性强等优点,同时还支持海量数据存储和计算。已有研究针对智能电网状态监测的特点,基于Hadoop并利用其它虚拟化技术和分布式存储技术存储和管理数据,以实现对电力大数据的高效管理。
内存计算技术主要解决大数据的实时处理问题。SAP HANA是基于内存计算技术的高性能实时数据计算平台,有研究表明SAPHANA可以提高计算速度几十到上百倍。随着内存价格的不断下降,内存计算已经具备物质基础,这也在一定程度上解决了海量数据的实时处理问题。文献中介绍了使用改良ApacheSpark作为执行引擎的内存计算引擎计算框架,采用轻量级的调度框架和多线程计算模型,与传统的Mapreduce框架相比,消除了频繁的I/O磁盘访问并降低了调度与启动开销。电力大数据包括实时监测数据、企业营销数据等,它们以一种顺序、大量、快速的方式呈现,可以被看作一种流式数据。流式大数据呈现出实时性、易失性、突发性、无序性、无限性等特征,对系统提出了很多新的更高的要求。S4流式计算系统和Storm流式计算系统的推出,在一定程度上推动了大数据流式计算技术的发展和应用。但是,这些系统在可伸缩性、系统容错、状态一致性、负载均衡、数据吞吐量等诸多方面仍然存在着明显不足。目前,分布式数据流实时计算系统在学术界和工业界都处于初步探索阶段。大数据流式计算技术应设计分布式多模态计算框架,选择能与Hadoop架构兼容的计算框架,调整各种计算框架中数据及索引访问模块,二次开发统一的计算任务调度模块,设计并开发统一的分布式环境。将流数据技术应用于电力系统可为决策者提供即时依据,满足实时的分析需求。
3、智能电网大数据展现技术
由于电力信息平台中信息体量大、且随時间不断变化,难以将所有信息一次性呈现给用户,所以要切实通过可视化技术对这些数据进行处理,使得异常数据在屏幕上较为清晰的呈现出来。针对不同类型的电力大数据,可视化方案也有所区别:首先对于电网运行数据,根据其高维、时序、快速的特点,应采取信息可视化与可视分析结合的技术方法进行处理。针对电力客户数据,客户数据主要来自用电终端信息采集系统。将用户电量信息与用户地理区域对应起来,可实现用户用电行为分析与负荷特性的可视分析。另外还可以结合地理信息系统绘制地区电力客户地图,并按照一定的权限向公众开放该全景分析图,实现用户的用电互动服务,实时反馈购、用电信息。最后是面向电网企业管理数据,可根据其不同业务部门的特点进行不同的可视化分析。
由于三维模型数据量较大,需要尽可能减小三维模型数据量,研究表明从纹理与几何两个方面对模型进行压缩,生成多种细节层次模型,以支持三维模型的动态可视化。而多细节层次技术需要解决的问题之一是如何快速地对多边形网格进行简化,以生成多分辨率模型,采用简化网格模型的算法,针对实时的虚拟场景中,保证了简化模型的连续性、实时性、保持外观特征性,使得原有的数据存储结构得以重复利用。已有研究提出基于模型组件化动态WEB 3D虚拟现实场景的搭建方法及系统,模型可以在虚拟现实项目中进行复用,减少在场景搭建中模型使用的冗余,并提高用户体验。
目前电网企业大数据挖掘分析工作虽然不断取得新的突破,但是将相关数据绘制成高精度、高分辨率的图片的业务模型、智能算法和交互式图形处理工具开发的研究才刚起步,相关可视化系统的功能实现需要进一步予以研究开发。
结束语
本文阐述了智能电网中大数据的数据特点以及应用价值,重点介绍了目前智能电网中大数据聚合管理、分析处理以及数据展示的关键技术,为我国智能电网大数据处理提供参考。
参考文献:
[1]李鹏.智能电网运营管理风险元传递模型及决策支持系统研究[D].华北电力大学,2014.
[2]魏亚楠.智能电网中多种发电模式联合调度模型及效益评价研究[D].华北电力大学,2014.