论文部分内容阅读
近年来电子商务企业的经营模式中,以“闪购”为核心的电商企业开始涌现,这种脱胎于法国网站Vente Privée的新型电子商务模式,在我国一些知名的电子商务企业中逐步应用,它以限时、限量、限价的营销模式,在电子商务市场中掀起了一股抢购热潮,各类“闪购”电商业务增加的同时,企业系统的数据量也在大幅度攀升,在这样的背景下,闪购电商对于大数据存储、数据仓库ETL技术的需求更为迫切。在大数据平台中,大量非结构化数据的存在使得“闪购”电商企业的经营分析更具有效用和深度,但也增加了企业对这些数据利用的难度和效率,特别是其涉及多元化的数据库类型,使得闪购电商企业在面对这些数据库时难以进行统一、协同的应用调度。因此,如何在复杂的体系中寻找这些作业之间的关系,并进行高效调度,成为了闪购电商大数据平台应用亟待解决的问题。论文提出一种适合于闪购电商大数据平台的ETL作业调度方案,并在该方案的基础上设计相关的系统。论文首先针对闪购电商大数据平台ETL作业调度系统的需求分析,提出了ETL作业调度系统在元数据管理、任务管理、抽取装载管理、作业调度管理等基本的业务需求,同时也提出了该系统在可靠性、易用性、安全性、可维护性、可扩展性、高集群使用率等多方面的性能需求。在此基础上,论文对闪购电商大数据平台ETL作业调度系统展开设计,提出了基于前端WebApp与后端计算集群的逻辑架构,为系统设计了借助了Hadoop分布式服务框架的技术架构。然后论文进一步对闪购电商大数据平台ETL作业调度系统的关键模块和业务进行了设计,包括元数据管理核心内容、元数据管理结构模型、任务管理功能、作业定义设计、作业依赖关系、作业运行设计、抽取装载流程、作业调度策略与选择、调度异常处理等。最后,对闪购电商大数据平台ETL作业调度系统进行了测试与应用,测试结果表明,本系统在功能和性能测试方面都表现较为良好,可以上线运行,通过正式运行之后发现,本系统对于闪购电商在大数据平台环境下的数据存储、挖掘以及作业调度都具有明显的提升作用,应用效果十分良好。