基于Hive架构的物流供应链运力异构数据整合研究

来源 :物流技术 | 被引量 : 0次 | 上传用户:debug_core
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘要]设计了一种基于Hive架构的异构数据整合框架,该框架以多个应用系统数据库为主要研究对象,选取某物流企业供应链过程中的车辆调度系统和运力调度系统的车源数据作为实验对象,通过分析、整合异构数据,搭建异构数据整合框架,进行异构数据整合研究。结果表明:该架构实现了异构数据资源共享,同时有助于实现物流行业的信息资源整合,而且可以为企业提供更加稳定可靠的决策支持。
  [关键词]Hive;物流供应链;异构数据;ETL
  [中图分类号]F274 [文献标识码]A [文章编号]1005—152X(2017)03—0168—04
  1引言
  随着计算机网络的普及,数据资源的共享已经成为一个热门话题。很多企业需要将DBMS、MIS、OA数据集成起来,构成企业的管理决策的网络信息平台。异构数据是一个含义丰富的概念,不仅指不同的数据库系统之间的数据是异构的,如Oracle和SQL Server数据库,而且还包括不同结构的数据之间的异构,如结构化的SQL Server数据库数据和半结构化的XML数据。
  在物流行业中,异构数据整合对提高物流供应链过程中的数据处理和数据共享能力,以及提供数据有效性、可用性和更加可靠稳定的决策分析等能力有重要意义。在物流运力供应链中,无论是顶端的物流运输企业还是底端的个体司机都难以实现双方的数据共享。他们之间没有真正意义的统一信息交换平台,从而导致双方各自为主,缺乏准确的信息交流。即使双方进行数据交换,也可能面临很多问题,这些问题主要集中于他们可能使用不同的信息交换平台,平台之间缺乏统一的数据格式。因此,在运力供应链中成员在进行数据交换时,基本都采用手工登记的方式。本文建立的基于Hive架构的物流运力供应链数据仓库将建立在多个应用系统之上,通过数据过滤、清洗、整合,建立统一的数据格式,实现多个系统之间的运力数据整合与共享。
  2多源异构数据处理技术
  在物流运力供应链数据整合过程中,首先需要整合链中各成员的数据,主要包括货主企业、物流企业、个体司机等。但是由于这些成员信息分散在不同的应用系统中,往往造成数据存储格式千差万别,所以需要将这些异构的多源运力数据实现有效整合。其次,将这些数据建立统一的数据格式。接着使用ETL(Extract-Trans-form-Load,抽取、转换、加载)等传输工具将数据导入Hive数据仓库,实现运力数据共享。
  数据ETL主要包括三个过程:
  (1)数据抽取。数据抽取是将源数据层的数据抽取到ODS或者数据仓库中。源数据可以是传统关系型数据库中的历史数据,也可以是文本文件,比如业务系统产生的日志文件以及其它文件数据;还可以是其它外部数据,如人工登记的数据。数据抽取策略一般根据具体业务需求而定,比如可以每一天抽取一次或多次,也可以每一小时或者每一分钟进行抽取。数据抽取主要分为全局性抽取和局部抽取,局部抽取一般用于大规模的数据分析,可以明显节约抽取时间,方便快速获得分析结果。而全局性抽取主要用于小规模的数据分析,由于数据量不大,采用全局性抽取方式不但能节约数据的抽取时间,而且还能进行完整的数据分析。
  (2)数据清洗。数据清洗主要是将没有实际意义的数据进行清洗。数据清洗一般和数据抽取同步进行,可以为接下来数据存储和分析节约时间。当数据源为关系型數据库时,使用抽取的SQL语句中就可以进行数据清洗工作,比如把NULL值或空值的数据过滤掉;当数据源为文本文件时,可以进行人工清洗,比如删除掉一些不符合规范的数据。
  数据清洗一般包含以下几个方面:
  ①空值NULL值处理:在实际应用程序中,会产生很多空值或NULL值的情况,所以应根据具体业务需要,把空值或NULL值的数据过滤掉或者替换为其它字符。
  ②检测数据正确性:处理一些非法输入的数据,如把一些用户随意输入的数据删除掉。
  ③统一数据格式:对多个应用系统中表示同一含义字段的数据类型和数据精度等进行统一。
  ④数据转意:由于数据表中往往存在固定的编码,这些编码代表的含义需要在编码表中查看。在数据清洗时,可以通过关联编码表,将这些编码转换成实际含义的数据等。
  ⑤根据具体业务规则进行数据清洗工作。
  (3)数据转换和加载。数据转换和加载,又称为数据更新,一般用来更新数据仓库中的历史数据。由于数据仓库中的表都是按照具体业务逻辑设计好的,并且更新数据的操作也是固定的。所以每当更新数据仓库中的数据时,往往只需要传人一些参数,通过程序代码或者存储过程就能实现数据更新。每当插入数据到一张表,都可以称为数据加载,至于删除、插入、合并,这些操作是由具体业务规则决定,并且都是嵌入到数据抽取、转换的过程中。
  3运力多源异构数据在阿里云数据仓库的搭建
  3.1异构数据来源
  物流异构数据源主要来自企业提供的运力数据,包括三个部分:
  (1)WEB系统。WEB系统主要是由企业开发并使用的物道网和物合网。物道网是一个物流设备选型和会展平台系统,主要提供物流设备选型、线上会展、专家咨询等服务,它旨在打造物流设备行业的最佳大数据平台。物合网是中国西部现代物流公共信息平台,是为了打造全国最大最专业的物流资源整合网站,它主要提供货源和车源信息等多个服务项目。它们分别提供了仓储平台、车源、货源、企业、用户、物流专线等多项数据,由于部分数据涉及个人、企业的隐私信息,企业过滤了这些隐私信息。这些数据来源于应用程序的后台数据库。
  (2)手机APP。手机APP主要是企业正在使用和完善的某运力调度系统,该调度系统主要旨在汇聚运输公司、个体司机和运力需求方,通过车辆监管和集中调度,逐步建成一套自动化的、集交易、运力匹配、监管为一身的运力综合服务平台。该平台主要由交易子系统、运力匹配子系统、监管子系统、客户关系管理子系统、合作伙伴子系统五部分组成。该数据源主要来自运力匹配子系统中,包括司机表、客户表、运力单明细表、车辆表等多个数据表。这些数据来源于应用程序的后台数据库。   (3)其它数据文件。其它文件数据主要包括一些手工登记的数据,比如个体司机登记的车辆运力需求信息。这些文件数据主要记录在Excel、XML等工具上。
  3.2数据仓库搭建
  为实现物流供应链过程中多系统车源数据整合,首先搭建Hive数据仓库,该数据仓库采用完全分布式管理,包括三台阿里云服务器,一台主节点,两台从节点。具体详细搭建步骤可参考文献[7]、[8],阿里云配置如下图1所示。
  3.3异构数据分析与整理
  对手机APP和WEB系统的车源数据进行分析、整理,手机APP的车源数据主要有4个表(包括车辆表,车辆常用路线表,司机信息表,车辆司机对应信息表),而WEB系统只有1个表(车辆详隋表),其数据库部署在不同的网络节点上,且有些数据字段类型、数据精度也不一致。
  具体整理过程如下:
  (1)整理车牌号字段。一般是省的简称+城市代号+5位车牌号,共7位。但是WEB系统中的字段长度是20,手机APP中的字段长度是12。数据字段太长,可能造成空间浪费,综合考虑后车牌号字段是VARCHAR类型,设置长度为10。
  (2)整理车辆载重字段。WEB系统中的字段类型是INT型,手机APP中是DOUBLE型。考虑到有些车辆登记信息上标明2位小数,比如6.50t,所以车辆载重字段设置类型为DOUBLE,长度10位,保留2位小数。
  (3)其他数据字段整理过程类似,但同时考虑适当优化存储结构。
  (4)通过分析、整理、综合后,选取双方都含有实际参考价值的数据字段,在Hive数据仓库中建立车源信息表,表结构如表1所示。
  通过编写Java程序将手机APP车源数据过滤到Hive数据仓库中,然后再加载到WEB系统后台数据库中。同理,WEB系统数据也可以按相同方法加载到手机APP后台数据库中。这样既实现了数据共享,同时也在Hive数据库中整合了多个应用平台车源数据,而且可以充分利用整合的异构数据进行分析和决策。具体框架结构图如图2所示。
  4搭建异构数据整合系统
  该系统主要采用Java开发语言、Hive数据仓库和MySql数据库。
  首先,通過手机APP后台车源数据整合,通过后台管理人员按条件选择性的将源数据加载到WEB系统中,建立了一个简单的后台数据导入功能界面,如图3所示。
  从功能界面可以看出,可以选择某个源系统(这里选取的是手机APP)某一天发布的车源信息,还可以根据具体需求,比如车辆类型、车长等选择性导入,加载到目标系统中去,从而实现多个系统之间数据资源共享,为企业接下来分析、决策提供更科学的依据。
  5实验结果
  5.1手机APP数据导入WEB系统
  通过导人功能,实现手机APP后台车源数据在WEB系统中共享。比如某位司机在手机APP中发布的车辆信息,通过异构数据整合框架能够显示在WEB界面中,如图4所示。
  5.2 WEB系统数据导入手机APP
  通过导入功能,实现WEB系统后台车源数据在手机APP中共享。比如某位司机在WEB系统中发布的车辆信息,通过异构数据整合框架能够显示在手机APP中,如图5所示。
  5.3整合后的异构数据
  通过整合两个应用系统的数据不仅可以实现数据共享,而且还可以为企业提供稳定可靠的决策分析。比如整合2015年11月16日的车源数据,如图6所示。
  6结束语
  本文分析了某物流企业的两个应用系统数据,提出了一种基于Hive架构的异构数据整合方案。通过搭建异构数据整合框架,实现了该企业两个应用系统的车源数据共享,同时在Hive数据仓库中积累了整合后的车源数据,为企业下一步分析预测工作提供更加科学的依据。最后通过在一个应用系统发布的车辆信息可以在另外一个系统中查看,验证了该框架的可行性。但是,通常物流企业的应用系统比较多,数据涉及范围广,这些问题有待进一步研究。
其他文献
首先给出了融资物流的含义,接着详细介绍了融资物流的开展模式,主要有仓单质押、运输在途监管、保兑仓、信用证下货权质押和银行货款等,然后深入分析了融资物流业务可能给物
在分析了物流管理专业实践能力的构成之后,介绍了其培养路径,再以天津农学院物流管理专业为例,介绍了该专业现存问题,最后针对性的提出了天津农学院物流管理专业的核心实践能
在对J2EE技术进行简要概述的基础上,以Y公司为例探讨了基于J2EE的物流跟踪信息系统的开发和设计问题,在对该公司物流服务需求分析的基础上,提出了该公司物流跟踪信息系统的主
采用模糊集理论,将多个产品与多个供应商结合,建立一个模糊多目标线性模型,帮助决策者找到每个供应商的适当订单,并提高军方采办的成本,质量和服务上的绩效。
对船舶大型化与船舶大气污染物排放量的关系进行了研究。通过对船舶行驶状态、主辅机信息、负载因子、低负载校正因子、排放因子及燃油校正因子等多要素分析,推导了船舶排放
[摘要]为缓解军用汽车物资供应链中存在的“牛鞭效应”,提高汽车物资保障效益,以物资供应商和军方物资保障中心构成的二级供应链为研究对象,建立了传统和stackelberg决策下的收益分享契约模型,通过实例验证可得stackelberg决策下的收益分享契约模型可对供应链所增加的收益进行合理的分配,并能使军供双方收益均有所增加,可实施性更强,方法更合理,可较好地协调汽车物资供应链。  [关键词]运输分队
[摘要]实践教学是培养创新型物流管理人才的关键教学环节。依据体系构建原则设计了基于学科竞赛的创新型物流管理专业实践教学体系,以培养具有创新精神和创新能力的物流管理人才为目标,制订相应的实践教学内容,构建运行保障机制和考核评价机制。该体系进一步豐富了实践教学内容和方法,拓宽了创新型物流管理人才培养路径,以适应现代物流产业发展要求。  [关键词]学科竞赛;物流管理专业;创新型人才;实践教学体系  1引