论文部分内容阅读
随着物联网技术的快速发展,自动化的水平不断的提高,使得工业制造中所产生的数据量成几何级数增长,而且产生的数量类型呈现结构化、半结构化、非结构化特点。传统的数据存储系统和数据处理方法面对当今的工业物联网下的大数据异构多源海量性特点,往往不适用。本文以线缆制造为研究背景,针对线缆制造中所产生的数据同样具有多样化、复杂度高、数据量大等特点,进行了线缆生产大数据平台的方案设计,并采用物联网数据采集和传输技术、主流的Hadoop大数据处理技术以及改进的关联规则Apriori算法,实现了基于Hadoop的线缆生产的大数据服务平台。本论文的主要工作有如下几方面: (1)大数据处理技术的研究与Hadoop环境搭建。研究了现有的主流的Hadoop的大数据处理技术,主要是Hadoop的MapReduce和HBase数据库,并完成了在阿里云上Hadoop的集群和HBase集群的搭建。 (2)Apriori关联规则算法的研究、改进和实现。根据本大数据服务平台的需求,选择Apriori关联算法对海量生产数据进行关联性分析。首先对Apriori的算法原理进行分析,结合本平台的Mapreduce计算模型的特点,对Apriori算法进行改进,通过仿真和测试后,对实验结果数据进行分析,得出了改进算法的性能优于传统算法,更适用于大数据处理的结论。最后在平台中数据挖掘模块实现改进Apriori算法,并针对线缆的生产数据进行关联性数据挖掘,并将数据结果进行展示和分析。 (3)线缆生产的大数据服务平台的设计与实现。针对线缆生产的大数据服务平台进行了需求分析,并分别对生产数据的获取模块、分布式数据存储架构模块、现场生产数据的实时监控、订单预警数据分析等功能模块进行设计。对于平台的数据库设计,基于具体的线缆生产的数据关系,对生产数据分别进行关系数据库和HBase数据存储模型的设计。对于平台的软件框架设计,主要采用与Hadoop相结合的Spring MVC框架。其中在生产数据存储部分,针对生产数据的请求上传次数频繁制约数据的实时性问题,采用ActiveMQ消息队列技术处理上传数据。分布式数据存储框架部分,通过设计MapRedcue计算模型进行对上传数据的分布式存储。在实现部分,借助于搭建的Hadoop平台,结合Spring MVC框架完成平台实现。 论文设计的线缆生产的大数据服务平台满足线缆生产的相关需求,所挖掘的生产参数的相关规则,具有指导生产的意义。