基于Spark的物流企业数据仓库的设计与实现

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:Konca
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术和电商行业的快速发展,物流企业也迅速成长起来,随之而来的便是在物流企业中产生了海量的物流数据;这些海量的物流数据一般都具有大数据的基本特征,物流企业如果采用大数据技术对这些海量数据信息进行数据挖掘和分析,将会获得一些对企业有价值的结果,它能够帮助企业决策人员深入了解和掌握物流企业内部的整体运转情况,对物流企业进一步的科学发展有重要的现实意义。物流企业的数据首先必须及时地保存在数据库中,然后才能进行数据分析和处理;但是现有的物流企业所采用的数据库技术在面对海量的物流数据的存储和分析处理需求时,存在着高代价和低效率的缺点。针对这个问题,本文提出了采用最新的分布式数据仓库技术来对物流企业中的海量数据进行存储管理的思想,重点对构建数据仓库的关键技术---基于Spark的分布式ETL系统和物流企业数据仓库的构建方法进行了较深入的分析和研究。本文所做的主要研究工作和创新性研究成果如下:1、设计和实现了一种基于Spark的分布式ETL系统,包括利用Spark抽取、转换清洗和加载数据的具体过程。该系统具有较好的扩展性、灵活性和高吞吐率,提高了构建物流企业数据仓库时ETL过程的执行效率;2、设计和实现了基于Spark的物流企业数据仓库,包括物流企业数据仓库的分析主题、维度表和事实表确定以及数据仓库的维度模型、架构、构建过程和实现方法等内容。该数据仓库利用Hive定义物流企业数据仓库表,SparkSQL对表进行查询分析操作,底层采用的Spark计算引擎,大大提高了查询分析的效率;3、通过实验证明了本文提出的基于Spark的分布式ETL系统的高效性以及基于Spark的物流企业数据仓库的可行性与有效性,充分说明了它们可以很好地满足物流企业快速构建数据仓库和对海量物流数据进行查询分析的实际需求。
其他文献
左翼文学在中国现代文学史上具有着独特的意义和鲜明的特点,它的政治功利性创作使其在文学史上的地位暧昧不清,或褒或贬,但无疑却是整个文学史节点上的重要一环。左联培养了
用搅拌摩擦焊焊接了4 mm厚的Q235低碳钢板和T2紫铜板,得到了内部无缺陷、外观成形良好、无变形的对接接头。研究表明,低碳钢紫铜接头的显微组织与其所受到的热和力作用大小有
随着社会和科技的发展,拍客群体不仅越来越壮大,而且其拍摄的作品也对社会发挥了越来越重要的影响,有的甚至能够成为一段时间内的舆论热点。本文就以拍客原创视频为研究对象,
正常化以来,美越关系取得了较快的发展。近年来,随着美国“重返亚太”战略的出台及中越南海主权争端的高涨,美越军事关系加速发展,引起较大的关注。本文在总结正常化以来美越
本文从正念这一新视角出发,结合自我控制,通过主观问卷调查和客观的行为实验相结合的方式来研究大学生的攻击性,为预防和减少大学生攻击提供建议,为高校心理健康教育工作提供
裁量赋予了行政生命,存在于行政法的各个领域,而行政法的关键问题就在于如何实现对行政裁量的规制。对于行政裁量的规制,除了传统的立法控制、司法控制途径外,行政机关内在控
对2年生天台鹅耳枥地上营养构件(树干、侧枝、叶)的生长发育过程进行研究的结果表明,苗高和地径生长均表现为“慢-快-慢-快”的趋势,呈双峰曲线,苗高生长高峰为6月1日和8月19
人文精神是当代护理服务不可或缺的内容,通过人类文化内蕴的教育,提升中职护生的人文精神,并将其贯穿于所有学科的教育及校园文化等有益活动之中,培养专业、技能、人文相综合的应
轮胎的制造工艺复杂,半成品种类繁多,制工具多样化,生产过程中容易出现一些质量问题.该文从气泡产生的部位入手,分析了轮胎生产时成型过程中气泡发生的原因,介绍了双压辊的使用在减