论文部分内容阅读
摘要:大数据分析梳理平台就是整合当前主流的各种具有不同侧重点的大数据分析框架和工具,实现对数据的挖掘和分析,一个大数据分析平台涉及到的组建众多,如何将其有机的结合起来,完成海量数据的挖掘是一项复杂的工作。本文通过数据分析平台的构建和数据分析两个方面展开研究。
关键词:信息分析、大数据、构建
一、序言
当前,人类社会信息化进程正在迈向网络化信息技术普及阶段。整个社会的信息采集渠道日益丰富,信息应用广度不断拓展,信息总量呈指数级增长,以信息为核心的创新驱动力持续增强,从而带来全社会信息在类型多样性、关系复杂性、应用时效性等方面呈现出崭新的趋势和特征。这种由社会信息环境的变革而引发的社会数据的变革,给信息科学及相关产业发展带来了巨大的挑战和机遇。
大数据时代,几乎每一个企业都对数据分析平台趋之若鹜,尤其是在今年疫情爆发之后,更多的企业主意识到了数据所具有的的极大商业价值,以及其作为支撑企业信息智能化的无形资产。
通常来说,企业内部的运营和业务系统每天会积累下大量历史数据,一些企业最多是对一些零散的数据进行浅层次的分析,真正的海量数据其实并没有得到真正有效的分析利用。
同时,随着系统的不断增加和积累,沉淀在系统深处的数据也更加难以提取和整合,后期的报表展示和可视化分析也就成了空壳应用。所以数据分析平台的建设就十分必要了,一方面它可以汇通企业的各个业务系统,从源头打通数据资源,另一方面也可以实现从数据提取、集成到数据清洗、加工、可视化的一站式分析,帮助企业真正从数据中提取价值,提高企业的经营能力。
二、数据分析
数据分析指用适当的统计、分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。
数据分析的目的是把隐藏在一大批看来杂乱无章的数据中的信息集中和提炼出来,从而找出所研究对象的内在规律。在实际应用中,数据分析可帮助人们做出判断,以便采取适当行动。数据分析是有组织有目的地收集数据、分析数据,使之成为信息的过程。这一过程是质量管理体系的支持过程。在产品的整个寿命周期,包括从市场调研到售后服务和最终处置的各个过程都需要适当运用数据分析过程,以提升有效性。
当前云南电网配网线路和设备故障明细,配网设备相关的交叉跨越,安全隐患等信息,目前是各单位采取EXCEL表格为载体对数据进行收集、整理并报送,由于数据量太大,导致全省各家供电单位报送数据质量和内容规范性较差,数据格式也无法统一,进一步导致大量数据的统计和分析工作无法高效进行,无法对配网线路和设备故障进行有效的闭环跟踪管控和多维度分析。本项目主要对配网缺陷、故障抢修、涉电安全隐患、线路交叉跨越、问题线路、重复跳闸线路、重过载、低电压等配网生产运行数据规范填报管控和数据统计分析应用。
基于以上原因,有必要开展配网生产运行数据纵向聚合分析平台开发,实现对全网配网线路和设备生产运行数据的统一规范化填报、管理,实现配网运行数据多维分析和统计。
离线数据分析
离线数据分析用于较复杂和耗时的数据分析和处理,一般通常构建在云计算平台之上,如开源的HDFS文件系统和MapReduce运算框架。Hadoop机群包含数百台乃至数千台服务器,存储了数PB乃至数十PB的数据,每天运行着成千上万的离线数据分析作业,每个作业处理几百MB到几百TB甚至更多的数据,运行时间为几分钟、几小时、几天甚至更长。
在线数据分析
在线数据分析也称为联机分析处理,用来处理用户的在线请求,它对响应时间的要求比较高(通常不超过若干秒)。与离线数据分析相比,在线数据分析能够实时处理用户的请求,允许用户随时更改分析的约束和限制条件。与离线数据分析相比,在线数据分析能够处理的数据量要小得多,但随着技术的发展,当前的在线分析系统已经能够实时地处理数千万条甚至数亿条记录。传统的在线数据分析系统构建在以关系数据库为核心的数据仓库之上,而在线大数据分析系统构建在云计算平台的NoSQL系统上。如果没有大数据的在线分析和处理,则无法存储和索引数量庞大的互联网网页,就不会有当今的高效搜索引擎,也不会有构建在大数据处理基础上的微博、博客、社交网络等的蓬勃发展。
三、平台构建
企业对数据、效率要求的逐步提高,也给大数据提供了展现能力的平台。企业构建大数据平台,归根到底是构建企业的数据资产运营中心,发挥数据的价值,支撑企业的发展。
动态配置、易于扩展:系统后台管理功能要具备高度的定制和配置能力,利用已有功能的、通过简单配置就可以满足大多数系统的应用场景。同时,为开发框架今后的扩展需要,预留接口,方便新功能的扩展。
简单部署、运行稳定:尽量减少不需要的配置和步骤,方便系统的搭建,实现系统的快速部署。通过完善的框架功能和标准的开发规范,保障系统运行的稳定和运行性能。
界面无关、方便定制:前端展现代码和后端业务代码的逻辑分离,开发框架不局限于某一种前端展现框架和代码,实现前端展现界面可以灵活设计和定制而不受某一种展现框架的局限。
调试简单、维护方便:框架所使用的各种技术要方便调试和已于維护,一方面提升问题定位和解决的效率;另一方面降低某一种技术自身缺陷对系统造成影响。
简单实用、快速投产:框架研发不贪大求全,以简单实用为准则,减少不必要功能的开发和设计,以实现用较短的时间完成基础框架的研发并投入使用。
层次分明、平滑升级:实体层、数据访问层、业务逻辑层、UI层,使用maven管理,每一层独立一个项目一个jar包便于管理、升级。升级方面采用源码方面,分层jar管理,web方面核心资源css、js统一管理,差异化采用继承的方式拓展,所有提供出来的调用api采用平滑过渡,保留老版本接口,出现升级时,对老版本接口进行提示,建议不使用方式。
技术平台的研发,在统一UI规范、接口规范、服务规范基础上,满足稳定性、安全性、拓展性、延续性、高性能的基础上,突出研发效率和用户体验,技术研发平台主要由服务框架、J2EE开发框架、终端开发框架组成。
四、总结
随着计算机技术和网络技术的不断发展进步,目前社会中的各行各业都要面临大量的数据,而单纯依靠人力进行海量的信息数据分析已然不再现实,这就催生了大数据分析技术。我们通常将大数据称之为复杂且规模巨大的数据集,拥有海量的非结构化数据。在大数据时代发展的浪潮下,大数据分析的构建已无可避免。
参考文献
[1] 陶皖主编.云计算与大数据:西安电子科技大学出版社,2017.01:第44页
[2] 边馥苓主编;孟小帝,崔晓晖副主编.时空大数据的技术与方法:测绘出版社,2016.05:第24页
作者简介
聂鼎(1983-),男,汉族,黑龙江省哈尔滨人,硕士,高级工程师,主要研究方向:电力大数据,智能配电网技术等
关键词:信息分析、大数据、构建
一、序言
当前,人类社会信息化进程正在迈向网络化信息技术普及阶段。整个社会的信息采集渠道日益丰富,信息应用广度不断拓展,信息总量呈指数级增长,以信息为核心的创新驱动力持续增强,从而带来全社会信息在类型多样性、关系复杂性、应用时效性等方面呈现出崭新的趋势和特征。这种由社会信息环境的变革而引发的社会数据的变革,给信息科学及相关产业发展带来了巨大的挑战和机遇。
大数据时代,几乎每一个企业都对数据分析平台趋之若鹜,尤其是在今年疫情爆发之后,更多的企业主意识到了数据所具有的的极大商业价值,以及其作为支撑企业信息智能化的无形资产。
通常来说,企业内部的运营和业务系统每天会积累下大量历史数据,一些企业最多是对一些零散的数据进行浅层次的分析,真正的海量数据其实并没有得到真正有效的分析利用。
同时,随着系统的不断增加和积累,沉淀在系统深处的数据也更加难以提取和整合,后期的报表展示和可视化分析也就成了空壳应用。所以数据分析平台的建设就十分必要了,一方面它可以汇通企业的各个业务系统,从源头打通数据资源,另一方面也可以实现从数据提取、集成到数据清洗、加工、可视化的一站式分析,帮助企业真正从数据中提取价值,提高企业的经营能力。
二、数据分析
数据分析指用适当的统计、分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。
数据分析的目的是把隐藏在一大批看来杂乱无章的数据中的信息集中和提炼出来,从而找出所研究对象的内在规律。在实际应用中,数据分析可帮助人们做出判断,以便采取适当行动。数据分析是有组织有目的地收集数据、分析数据,使之成为信息的过程。这一过程是质量管理体系的支持过程。在产品的整个寿命周期,包括从市场调研到售后服务和最终处置的各个过程都需要适当运用数据分析过程,以提升有效性。
当前云南电网配网线路和设备故障明细,配网设备相关的交叉跨越,安全隐患等信息,目前是各单位采取EXCEL表格为载体对数据进行收集、整理并报送,由于数据量太大,导致全省各家供电单位报送数据质量和内容规范性较差,数据格式也无法统一,进一步导致大量数据的统计和分析工作无法高效进行,无法对配网线路和设备故障进行有效的闭环跟踪管控和多维度分析。本项目主要对配网缺陷、故障抢修、涉电安全隐患、线路交叉跨越、问题线路、重复跳闸线路、重过载、低电压等配网生产运行数据规范填报管控和数据统计分析应用。
基于以上原因,有必要开展配网生产运行数据纵向聚合分析平台开发,实现对全网配网线路和设备生产运行数据的统一规范化填报、管理,实现配网运行数据多维分析和统计。
离线数据分析
离线数据分析用于较复杂和耗时的数据分析和处理,一般通常构建在云计算平台之上,如开源的HDFS文件系统和MapReduce运算框架。Hadoop机群包含数百台乃至数千台服务器,存储了数PB乃至数十PB的数据,每天运行着成千上万的离线数据分析作业,每个作业处理几百MB到几百TB甚至更多的数据,运行时间为几分钟、几小时、几天甚至更长。
在线数据分析
在线数据分析也称为联机分析处理,用来处理用户的在线请求,它对响应时间的要求比较高(通常不超过若干秒)。与离线数据分析相比,在线数据分析能够实时处理用户的请求,允许用户随时更改分析的约束和限制条件。与离线数据分析相比,在线数据分析能够处理的数据量要小得多,但随着技术的发展,当前的在线分析系统已经能够实时地处理数千万条甚至数亿条记录。传统的在线数据分析系统构建在以关系数据库为核心的数据仓库之上,而在线大数据分析系统构建在云计算平台的NoSQL系统上。如果没有大数据的在线分析和处理,则无法存储和索引数量庞大的互联网网页,就不会有当今的高效搜索引擎,也不会有构建在大数据处理基础上的微博、博客、社交网络等的蓬勃发展。
三、平台构建
企业对数据、效率要求的逐步提高,也给大数据提供了展现能力的平台。企业构建大数据平台,归根到底是构建企业的数据资产运营中心,发挥数据的价值,支撑企业的发展。
动态配置、易于扩展:系统后台管理功能要具备高度的定制和配置能力,利用已有功能的、通过简单配置就可以满足大多数系统的应用场景。同时,为开发框架今后的扩展需要,预留接口,方便新功能的扩展。
简单部署、运行稳定:尽量减少不需要的配置和步骤,方便系统的搭建,实现系统的快速部署。通过完善的框架功能和标准的开发规范,保障系统运行的稳定和运行性能。
界面无关、方便定制:前端展现代码和后端业务代码的逻辑分离,开发框架不局限于某一种前端展现框架和代码,实现前端展现界面可以灵活设计和定制而不受某一种展现框架的局限。
调试简单、维护方便:框架所使用的各种技术要方便调试和已于維护,一方面提升问题定位和解决的效率;另一方面降低某一种技术自身缺陷对系统造成影响。
简单实用、快速投产:框架研发不贪大求全,以简单实用为准则,减少不必要功能的开发和设计,以实现用较短的时间完成基础框架的研发并投入使用。
层次分明、平滑升级:实体层、数据访问层、业务逻辑层、UI层,使用maven管理,每一层独立一个项目一个jar包便于管理、升级。升级方面采用源码方面,分层jar管理,web方面核心资源css、js统一管理,差异化采用继承的方式拓展,所有提供出来的调用api采用平滑过渡,保留老版本接口,出现升级时,对老版本接口进行提示,建议不使用方式。
技术平台的研发,在统一UI规范、接口规范、服务规范基础上,满足稳定性、安全性、拓展性、延续性、高性能的基础上,突出研发效率和用户体验,技术研发平台主要由服务框架、J2EE开发框架、终端开发框架组成。
四、总结
随着计算机技术和网络技术的不断发展进步,目前社会中的各行各业都要面临大量的数据,而单纯依靠人力进行海量的信息数据分析已然不再现实,这就催生了大数据分析技术。我们通常将大数据称之为复杂且规模巨大的数据集,拥有海量的非结构化数据。在大数据时代发展的浪潮下,大数据分析的构建已无可避免。
参考文献
[1] 陶皖主编.云计算与大数据:西安电子科技大学出版社,2017.01:第44页
[2] 边馥苓主编;孟小帝,崔晓晖副主编.时空大数据的技术与方法:测绘出版社,2016.05:第24页
作者简介
聂鼎(1983-),男,汉族,黑龙江省哈尔滨人,硕士,高级工程师,主要研究方向:电力大数据,智能配电网技术等