论文部分内容阅读
随着我国制造业信息化的快速发展,企业要保持竞争优势成为新经济时代的赢家,就需要把握住“信息”这条命脉。烟草行业通过ERP、CRM、SCM等系统,积累了大量业务数据,为制造业实施商务智能提供坚实的数据基础。但随着信息化的深入推进,需要处理的业务数据量越来越大,达到海量级别,数据的处理也遇到了瓶颈,云计算的出现和发展恰好解决了这个问题。企业通过应用云计算以低廉的成本来处理日益增长的大规模数据,加快了企业发展进程,并为企业创造更多的利益。在这样背景下,本文在制造业商务智能技术及产品研发的基础上,立足烟草行业,以浙江烟草为例,通过将商务智能与云计算结合,将数据挖掘算法应用于云平台,对浙江中烟综合经济运行分析系统展开研究与设计。论文研究内容主要包括以下几个方面:(1)商务智能和Hadoop分布式平台。本文深入研究了Hadoop的两大核心技术HDFS和Mapreduce编程模型,同时也详细介绍了商务智能的相关理论及数据挖掘算法。(2)基于MapReduce的k-means算法研究。K-means算法是聚类分析的常用算法,本文中的综合经济运行平台也采用了此算法。该算法简便、运行速度快,易于实现,但在处理烟草企业集团大规模数据时,遇到了瓶颈。数据规模变大,运算次数也随之增多,耗时也增多,为了解决这个瓶颈,本文使用MapReduce编程模型,在Hadoop平台上实现k-means算法的MapReduce并行化。为进一步提高算法的效率,还对传统的算法从孤立点处理、k值确定、欧氏距离、初始中心点选取四个方面做了改进。(3)建立烟草数据仓库。采集浙江省11家地市公司数据,并使用ETL工具进行抽取与整合。(4)Hadoop平台建设与分析。搭建了Hadoop平台环境,以烟草数据仓库中的系统实际运行为数据为例,做实验验证改进的k-means算法的聚类结果和基于MapReduce的改进k-means算法的聚类结果的加速比和可扩展性。实验结果表明应用改进的k-means算法产生的聚类结果,具有更高的准确性和稳定性;基于MapReduce的改进k-means比传统的k-means并行化准确率更高,收敛更快,并且对大规模数据集都有较好的加速比和扩展性。(5)基于Hadoop的综合经济运行平台。将Hadoop与浙江中烟的业务需求相结合,搭建烟草“私有云”架构,建设了基于云计算的综合经济运行平台,处理浙江中烟大规模的海量业务数据,为企业领导提供更加准确的决策分析。