论文部分内容阅读
【关键词】大数据;制造业;系统架构设计
大数据时代下,利用生产过程中采集到的数据对能源消耗进行及时、准确的预测,进而达到节能减排的目的,利用科学的算法对数据进行分析进而调整产业结构,都将成为制造企业发展的新方向。但传统的数据分析、预测架构结构单一固定并且动态适应能力与可拓展性较差,很明显已经不能适应企业对于海量数据的处理和快速、深度挖掘的需求,因此作者认为制造企业迫切需要运用大数据技术对企业能源消耗进行预测。本文试图对制造企业运用大数据技术进行能耗预测时面临的机遇与挑战进行分析,并给出制造企业大数据能耗预测的一种可选框架。
大数据背景下的制造企业,仅对直接生产数据进行处理是不能满足其需求的,因而要处理多元化的数据。在大数据时代,我们可以便捷地获取和存储各类数据,从而帮助我们实现全集数据库的建立。全集数据使数据的分析过程更加全面,能够发现很多隐性的细节,使数据分析的结果更加精确。
制造企业中的全集数据具有不同的数据来源,不同数据间的获取、转换相互独立,因此传统的集中数据存储方法已不再适用。分布式存储已成为当前大数据分析中的主流解决方案,该技术采用可扩展的系统结构,利用多台存储服务器和位置服务器,对存储负荷进行负载均衡,对存储信息进行定位,大大增强了系统的稳定性以及数据的存取效率,并具有易于扩展的优点,动态适应能力较强。
在本文的架构当中,全集数据被分散的存储在分布式系统的各个节点中,针对当前大数据环境下的数据增长速度较快的问题,仅需在当前的分布式存储系统中增加相应数量的节点即可,这样就保证了系统的拓展性问题。
虽然分布式的数据存储系统为我们解决了数据存储的问题,但是未能实现对大量数据的实时获取功能,造成了企业的业务系统对数据进行获取以及使用的过程中,存在较为严重的数据滞后问题。因此在本文设计的架构中,在分布式节点存储数据之后,会将计算节点融合在数据旁的CPU之中,将计算推向数据,取代传统意义程序从数据库获取数据进行计算,进而转變为云计算的架构模式。
分布式数据存储、计算系统在功能结构上包括分布式基础设施层、平台层与软件层3个层次。
(一)基础层
在分布式架构的基础层中主要是分布式存储的各个结点和计算系统的计算单元,各结点位于分布式结构的基础设施当中,并且它们之间可以进行分组,每组中都会有一个目录服务器节点,它的作用是对该组节点进行统一任务分配,并且对计算结果进行汇总,而且可以作为各结点的文件和数据索引。在每一组结点的外部,都存在一个总目录服务器的节点,对于所有的分布式基础设施进行任务分配以及计算结果的汇总,并且作为下层各目录服务器的文件和数据索引。
(二)平台层
服务类引擎以及数据类引擎等均位于平台层中,其中数据引擎主要包括能源数据引擎,供应链数据引擎,人力数据引擎,财务数据引擎,生产数据引擎等。服务引擎主要包括用户身份认证引擎,企业报表引擎,数据统计分析引擎等,上述的服务引擎和数据引擎作为架构中软件层的核心,为上层提供相应的数据接口以及一些通用功能类接口。比如,系统中各类对能源数据有需求的业务系统可以调用能源类数据引擎所提供的数据接口,通过传递参数的方式获取到所需的能源数据。文中提及的平台层的引擎均具备较强的通用性和适应性,根据不同的业务逻辑需求进行适配。目前平台层采用的是Google公司的MapReduce数据分析处理框架。2004年Google公司提出的MapReduce[1]编程模型采用批处理模式,其为目前批处理方式采用的主要模型。
(三)软件层
软件层作为该架构的最顶层,本层主要包括了与大数据综合分析直接相关的各个业务系统,软件层的最终目标是将数据转化为有价值的信息,并通过合理的方式将其展现在企业高层与相关用户面前。要完成本层中各个业务系统的功能目标,需要通过调用平台层提供的各类数据接口,将数据筛选条件作为参数传递给平台层,从而获取到对应的数据,将数据进行处理后,使用数据挖掘方法对数据进行深层次加工,进而实现系统功能。显而易见,该部分的核心内容就是数据挖掘算法,挖掘算法的精确程度将对系统分析结果的精确性和准确性产生影响。
大数据时代下,利用生产过程中采集到的数据对能源消耗进行及时、准确的预测,进而达到节能减排的目的,利用科学的算法对数据进行分析进而调整产业结构,都将成为制造企业发展的新方向。但传统的数据分析、预测架构结构单一固定并且动态适应能力与可拓展性较差,很明显已经不能适应企业对于海量数据的处理和快速、深度挖掘的需求,因此作者认为制造企业迫切需要运用大数据技术对企业能源消耗进行预测。本文试图对制造企业运用大数据技术进行能耗预测时面临的机遇与挑战进行分析,并给出制造企业大数据能耗预测的一种可选框架。
一、装备制造企业大数据能耗预测架构分析
大数据背景下的制造企业,仅对直接生产数据进行处理是不能满足其需求的,因而要处理多元化的数据。在大数据时代,我们可以便捷地获取和存储各类数据,从而帮助我们实现全集数据库的建立。全集数据使数据的分析过程更加全面,能够发现很多隐性的细节,使数据分析的结果更加精确。
制造企业中的全集数据具有不同的数据来源,不同数据间的获取、转换相互独立,因此传统的集中数据存储方法已不再适用。分布式存储已成为当前大数据分析中的主流解决方案,该技术采用可扩展的系统结构,利用多台存储服务器和位置服务器,对存储负荷进行负载均衡,对存储信息进行定位,大大增强了系统的稳定性以及数据的存取效率,并具有易于扩展的优点,动态适应能力较强。
在本文的架构当中,全集数据被分散的存储在分布式系统的各个节点中,针对当前大数据环境下的数据增长速度较快的问题,仅需在当前的分布式存储系统中增加相应数量的节点即可,这样就保证了系统的拓展性问题。
虽然分布式的数据存储系统为我们解决了数据存储的问题,但是未能实现对大量数据的实时获取功能,造成了企业的业务系统对数据进行获取以及使用的过程中,存在较为严重的数据滞后问题。因此在本文设计的架构中,在分布式节点存储数据之后,会将计算节点融合在数据旁的CPU之中,将计算推向数据,取代传统意义程序从数据库获取数据进行计算,进而转變为云计算的架构模式。
分布式数据存储、计算系统在功能结构上包括分布式基础设施层、平台层与软件层3个层次。
二、制造企业分布式计算架构设计
(一)基础层
在分布式架构的基础层中主要是分布式存储的各个结点和计算系统的计算单元,各结点位于分布式结构的基础设施当中,并且它们之间可以进行分组,每组中都会有一个目录服务器节点,它的作用是对该组节点进行统一任务分配,并且对计算结果进行汇总,而且可以作为各结点的文件和数据索引。在每一组结点的外部,都存在一个总目录服务器的节点,对于所有的分布式基础设施进行任务分配以及计算结果的汇总,并且作为下层各目录服务器的文件和数据索引。
(二)平台层
服务类引擎以及数据类引擎等均位于平台层中,其中数据引擎主要包括能源数据引擎,供应链数据引擎,人力数据引擎,财务数据引擎,生产数据引擎等。服务引擎主要包括用户身份认证引擎,企业报表引擎,数据统计分析引擎等,上述的服务引擎和数据引擎作为架构中软件层的核心,为上层提供相应的数据接口以及一些通用功能类接口。比如,系统中各类对能源数据有需求的业务系统可以调用能源类数据引擎所提供的数据接口,通过传递参数的方式获取到所需的能源数据。文中提及的平台层的引擎均具备较强的通用性和适应性,根据不同的业务逻辑需求进行适配。目前平台层采用的是Google公司的MapReduce数据分析处理框架。2004年Google公司提出的MapReduce[1]编程模型采用批处理模式,其为目前批处理方式采用的主要模型。
(三)软件层
软件层作为该架构的最顶层,本层主要包括了与大数据综合分析直接相关的各个业务系统,软件层的最终目标是将数据转化为有价值的信息,并通过合理的方式将其展现在企业高层与相关用户面前。要完成本层中各个业务系统的功能目标,需要通过调用平台层提供的各类数据接口,将数据筛选条件作为参数传递给平台层,从而获取到对应的数据,将数据进行处理后,使用数据挖掘方法对数据进行深层次加工,进而实现系统功能。显而易见,该部分的核心内容就是数据挖掘算法,挖掘算法的精确程度将对系统分析结果的精确性和准确性产生影响。