论文部分内容阅读
随着互联网技术和电商行业的快速发展,物流企业也迅速成长起来,随之而来的便是在物流企业中产生了海量的物流数据;这些海量的物流数据一般都具有大数据的基本特征,物流企业如果采用大数据技术对这些海量数据信息进行数据挖掘和分析,将会获得一些对企业有价值的结果,它能够帮助企业决策人员深入了解和掌握物流企业内部的整体运转情况,对物流企业进一步的科学发展有重要的现实意义。物流企业的数据首先必须及时地保存在数据库中,然后才能进行数据分析和处理;但是现有的物流企业所采用的数据库技术在面对海量的物流数据的存储和分析处理需求时,存在着高代价和低效率的缺点。针对这个问题,本文提出了采用最新的分布式数据仓库技术来对物流企业中的海量数据进行存储管理的思想,重点对构建数据仓库的关键技术---基于Spark的分布式ETL系统和物流企业数据仓库的构建方法进行了较深入的分析和研究。本文所做的主要研究工作和创新性研究成果如下:1、设计和实现了一种基于Spark的分布式ETL系统,包括利用Spark抽取、转换清洗和加载数据的具体过程。该系统具有较好的扩展性、灵活性和高吞吐率,提高了构建物流企业数据仓库时ETL过程的执行效率;2、设计和实现了基于Spark的物流企业数据仓库,包括物流企业数据仓库的分析主题、维度表和事实表确定以及数据仓库的维度模型、架构、构建过程和实现方法等内容。该数据仓库利用Hive定义物流企业数据仓库表,SparkSQL对表进行查询分析操作,底层采用的Spark计算引擎,大大提高了查询分析的效率;3、通过实验证明了本文提出的基于Spark的分布式ETL系统的高效性以及基于Spark的物流企业数据仓库的可行性与有效性,充分说明了它们可以很好地满足物流企业快速构建数据仓库和对海量物流数据进行查询分析的实际需求。