基于HadooP的交通物流数据仓库构建技术研究

来源 :西部交通科技 | 被引量 : 0次 | 上传用户:jwh346048162
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:随着社会经济的高速发展,交通物流行业对交通数据存储、管理和分析的要求越来越高。文章在对比Hadoop与MPP等技术的基础上,基于对MapReduce并行计算、HDFS分布式文件系统、数仓工具Hive和Sqoop采集组件等架构的分析,研究了Hadoop交通物流数据仓库的构建技术,建设了交通物流数据仓库,实现了海量交通物流数据文件的元数据管理、分布式存储和交通物流数据查询。经测试验证:利用交通物流数据仓库进行大型交通物流数据文件的存储和操作时,能有效提高数据吞吐率及其读写效率。
  关键词:交通物流数据;数据仓库;Hadoop
  中图分类号:U492.3 文献标识码:A DOI:10.13282/j.cnki.wccst.2019.10.045
  文章编号:1673-4874(2019)10-0162-04
  0引言
  随着交通物流现代化水平的提高、业务体系的发展和信息化能力的增强,已逐步累积了海量、多源、动态、异构的交通物流信息资料,全量交通物流数据所蕴含的信息非常丰富。如何将如此海量异构的信息资源进行有效利用,是现阶段交通物流管理部’刁的迫切需要。
  传统的交通物流数据库是基于关系型数据库开发的,不管是否采用分布式架构,都无法实现对交通物流海量异构数据的高效处理。而Hadoop集群技术能够为海量、异构的交通物流数据提供高效的数据存储、筛选、加工和分析挖掘,其分布式的系统基础架构,可以通过增加Hadoop数据节点提高系统处理的容量,且对部署的硬件设备性能要求不高,能够有效節约存储成本。
  本文基于Hadoop分布式系统架构,设计并实现了支持海量、异构的交通物流数据仓库.Hadoop集群可以方便地扩充存储容量,分布式计算可以高效地处理数据,基于Hive可以便捷地管理元数据,完全满足了海量交通物流数据存储管理和分析应用的实际要求。
  1交通物流数据仓库构建方法
  针对交通物流数据存储管理和分析的实际需要,对MPP和Hadoop两种技术进行系统的分析和比较。
  1.1 MPP技术
  MPP(Massivel parallel processing)是面向结构化的数据进行处理和设计的数据库管理系统,是一种大规模并行处理数据库。该系统中的每个节点CPU均无法对另一节点内存进行直接访问,节点之间通过互联网络来实现信息的交互。基于共享资源架构,易于实现资源的水平扩展。该数据库具有统一的SQL接口,适用于结构化数据的复杂查询、深度分析及自主分析类应用。
  MPP数据库在灵活查询、复杂关联汇总、深度分析等方面性能出众,适合交通物流数据中心场景中的数据挖掘、自助分析、数据关联等复杂逻辑加工场景,但是MPP数据库在大规模数据及半结构化、非结构化数据处理方面性能会下降,无法满足交通物流中的多源异构数据的应用场景需要。
  1.2Hadoop技术
  Hadoop是一个开源的分布式计算架构,由Apache基金会开发,核心部件包括两部分:分布式文件系统HDFS和分布式数据处理MapReduce。HDFS既可以支持结构化数据,也可以支持半/非结构化数据,能够存储、查询和分析所需的数据,文件按照块进行划分存储在多台机器上,并通过副本的方式保证高可用;MapReduce通过Map的方式将计算任务扩展到多台机器上,进而通过Reduce的方式将多个节点上的结果进行合并。
  Hadoop基于HDFS及MapReduce之上的SQLon Hadoop组件Hive,通过定义类SQL语言,可以大幅简化SQL用户进行数据查询的过程。Hive查询操作的过程必须严格遵循Hadoop MaCReduce的作业执行模型,用户的Hive SQL语句通过解释器能够转换成MapReduce作业,并提交到Hadoop集群,Hadoop对作业执行过程进行监控,并将作业执行结果返回用户。
  在Hadoop架构中,Hive只能用于结构化数据,而更底层的MaCReduce可用于结构化与非结构化数据。在调优、性能方面,Hive不如MapReduce,尤其是MapReduce可以针对性地对某些应用进行算法优化。此外,Hive还具备类SQL语言实验的机制,可以大幅提高开发人员工效,并降低工作量。
  1.3 对比分析
  由于MPP与Hadoop分别采用了不同的理论依据和技术路线,虽同属分布式计算,但各自的优缺点及适用范围不同。Hadoop具有对非结构化和半结构化数据的处理优势,适用于海量数据的批量化处理。而MPP适合进行大数据的高效处理,能有效替代现有的关系数据库,但其可用性在大规模集群数据下会降低。MPP适用于数据集市和多维数据分析等,Hadoop则更适用于批量数据ETL及海量数据查询存储等。
  交通物流数据往往呈现多源、异构及海量等特征,除了结构化的业务数据还包含各类半结构化、非结构化的GIS数据、影像数据及视频流媒体数据等,在分析多源异构的海量交通物流数据时,需要联合结构化与半/非结构化数据一起分析。因此,通过综合比较与对比分析,本文采用Hadoop集群技术构建交通物流数据仓库。
  2 交通物流数据仓库设计与实现
  本文基于Hadoop分布式架构进行交通物流数据仓库的设计,目标是实现海量交通物流数据的分布式存储,以满足交通物流管理部门对交通物流数据的备份、恢复、管理、存储和共享等各项需求。
  交通物流数据仓库体系结构由集群上的HDFS分布式存储、YARN资源调度、Sqoop数据采集、Ma-pReduce并行计算及Hive数据访司组件组成。基于不同的数据源,收集并汇聚到统一的数据仓库,由数据仓库来高效集中地进行存储和管理,并为交通云提供数据基础和分析、挖掘及预报预测等支持和服务。   2.1交通物流分布式文件存储设计与实现
  HDFS(Hadoop Distributed File System,基于Ha-doop的文件系统)可以进行分布式计算,其容错性能好、数据吞吐率高、易于部署实施,非常适用于信息量大、且读写频繁的交通物流数据存储。
  集群中主控管理层里有一个交通物流主控节点(NameNode),存储层有4个数据节点(DataNode)。主控节点主要负责文件系统命名空间(NameSpace)的维护、协调客户端文件访司、记录命名空间内的改动及命名空间的属性变化。数据节点主要负责进行其物理节点的存储管理。
  数据仓库中的物流数据采用“一次写入、多次读取”的方式,通常以64MB规格切分为不同的数据块(Block),并尽量将每个数据块分散存储到不同的数据节点,同时完成多重备份,确保任意节点的故障都不会对数据的可操作性与完整性产生影响。数据仓库在执行作业的过程中,会将MapReduce的每个作业处理结果直接写入数据仓库文件系统。执行作业时,基于HDFS的容错性能,若某节点出现故障,则只需重新调度执行该节点的任务即可,无需重新提交查询。
  2.2 交通物流数据MapReduce任务设计与实现
  在本文建设的物流数据仓库中,元数据管理和海量数据处理采用了基于Hadoop的开源数据工具Hive。海量的物流数据直接存储在HDFS中,利用类SOL语言进行自动化处理和存儲管理。按分布式存储的方式在HDFS中对物流数据进行物理存储,利用Hive转换和解析元数据,形成一系列MapReduce任务,最后通过这些任务的执行来完成数据处理。
  基于Hive提供的数据存储与处理机制,能够把物流数据的元数据和日志映射为表结构,并形成Ma-pReduce任务,从而完成数据和日志的处理。基于浏览器端的Hive接口,能大幅降低MapReduce作业难度,从而节省数据开发工作量。
  通过分离简化管理元数据等,各数据节点可以直接访司并具有计算性能,从而达到数据共享和高性能分析的要求。元数据是数据质量、内容、条件等数据的数据,是数据质量水平和来源的描述,也是数据适用范围及可信度的判别依据。Hive完成了Hadoop与关系数据库的结合,由MapReduce完成数据转换与装载等,由关系型数据库来管理元数据并进行密集型任务的查询。
  3 交通物流数据仓库数据性能分析
  本文基于已设计构建的数据仓库,利用已汇聚的5.8亿条实际交通物流信息数据,进行数据仓库的性能分析。数据包含每一辆通过高速公路收费站的车辆相关收费信息,包括车牌号、入站口及入站时间、出站口及出站时间、实收金额等信息,其关系示意如图1所示。基于同一数据集,分别在Hadoop平台以及SQL Server上完成数据采集、数据查询、数据转换以及数据导出的测试,比较其性能。
  基于Hadoop架构的交通物流数据仓库中的Sqoop数据采集组件,能够解决Hadoop和关系型数据库之间的数据传递,基于Sqoop组件能快速实现关系型数据库和HDFS之间的数据导入与导出。Sqoop数据采集组件是采用MapReduce任务的形式分布式并行进行的。在Hadoop平台上使用Sqoop组件对数据进行采集,测试结果如表1所示。
  实验中,基于Hadoop和Hive进行数据组合训练后,复制到MapReduce上,再把测试数据集的文件映射为数据库表,并提供完成的类SQL查询功能,可以将Hive转换为MapReduce任务执行。对测试数据集进行Hive查询操作,结果如表2所示。
  在数据转换测试中,使用类SQL的Hive脚本进行Group By操作,统计每天的收费金额,其结果如表3所示。
  本实验主要目的在于测试基于Hadoop架构的交通物流数据仓库在不同数据量下系统的采集、转换和导出功能的性能。
  在相同的实验环境下SQL Server在执行5.8亿条数据转换脚本时,经过3h的运算,最终由于内存溢出而导致脚本执行失败。在Hadoop集群中计算相同数据,仅耗时29min13S便完成转换任务。由此可见大数据平台在此数据量下的计算能力优于传统数据库。
  在实验过程中,基于Hadoop的交通物流数据仓库资源占用率不到80%。本次实验环境使用的交换机设备为H3C S1208和H3C$5130-28S-SI,实验数据持续2h不间断地向HDFS文件系统中写入数据,在写入的过程中,测试数据集流量达到网络链路承载上限,即占满整个千兆以太网链路,平均速率为154.59Mbps,在满负荷的情况下,仍能以最快速度完成此任务,性能表现良好。
  4 结语
  本文对构建交通物流数据仓库的必要性和重要性进行了系统阐述,分析对比了Hadoop与MPP两种技术构建交通物流数据仓库的优劣性,通过利用Ha-doop集群技术在海量异构数据处理性能上的优势,设计架构完成了交通物流信息的数据仓库,并利用实际物流数据对其性能进行分析评测。实践证明,该数据仓库能够对海量交通物流数据进行分布式存储、分布式处理、元数据管理和备份,具有优越的容错性和安全性,任何一个或几个节点出现故障,都不会对整个系统集数据造成较大影响,其综合性能具有明显优势。此外,集群节点均为普通计算机,其成本低廉,且易于架构实现。
其他文献
目前的中学语文教学仍然存在“灌输—训练”的突出问题:教师讲得口干舌燥、筋疲力尽,学生却听得头昏脑涨、毫无生机。这样的教学,从表面上看,占满了课堂教学的所有时间,教师虽感到尽心尽力了,但从学生学习的效能来看,恰恰是低效教学。那么怎样才能有效地提高语文课堂教学的效率呢?    一、教师必须脉络清楚,有清晰的教学思路    课堂教学的成功与否,很大程度上取决于教学思路是否清晰。这就要求教师在优化课堂教学
期刊
让每个学生都对英语感兴趣,都能学好英语是英语教师的理想。可是,实际教学工作中教师又常常不得不面对一些不喜欢英语,害怕学英语甚至讨厌英语的学生,我们可以把他们统称做“英语厌学者”。根据笔者的观察,“英语厌学者”可以大致分为以下几种类型。    一、英语学习厌学类型    (一)抑郁型  一些中学生性格内向,在英语学习中,当他们遇到困难,又没有能力解决时,不愿向老师、同学倾诉,内心往往会产生一些不愉快
期刊
教学方法在学生获取知识、培养思维方法和能力,特别是创造能力的过程中,具有重要的作用。科学的教学方法,能启迪思维、开发智力、发掘潜能,培养良好的思维品质和思维习惯,使思想政治教学事半功倍。教法运用是否得当,直接关系着该学科教学效果的好坏,影响着教学质量的高低。  在过去的很多年里,思想政治课教学模式呆板陈旧,教学方法引不起学生的兴趣,只能让学生死记硬背,“教师为考而教,学生为考而学”。这种教学过程缺
期刊
摘要:文章对建设交通养护大数据平台过程中的可视化技术进行了研究,通过对比目前市场上流行的可视化技术,最终选择ECharts对大数据平台的数据进行可视化实验分析。结果表明,利用ECharts可以很好地满足交通养护大数据平台的可视化需求。  关键词:养护大数据;可视化;ECharts  中图分类号:U491 文献标识码:A D00:10.13282/j.cnki.wccst.2019.10.041  
期刊
批改作业是小学数学教师的一项常规工作,是对课堂教学的补充与提高。它对指导学生学习,检查教学效果,  调整教学方案发挥着至关重要的作用。但对于目前班额大、学生多的情况,如何通过批阅作业来了解每一个学生  掌握知识的情况。笔者摸索出一些数学作业的批改之法。    一、教师全批全改    教师收齐每个学生的作业,逐本批改,其优点是教师可以详细地了解每个学生的学习情况,便于发现带有普遍性的问题,及时采取补
期刊
新编思想品德课以当代课程改革的总体思想为依据,体现思想品德课追求素质教育和教育创新的理念。所以,我在教学中以情感人、以疑激人、以新诱人,努力使学生对思想品德课产生浓厚的兴趣,从而提高学习效率。下面,是我在教学中利用“愉快教学法”做的几点尝试。    一、建立和谐的师生关系    教学活动是师生双方的共同活动,若要学生乐学,教师必须做到乐教。因为有些学生在学习中往往带有浓厚的感情色彩,即“亲其师”,
期刊
在初中阶段的语文教学中,笔者发现随着年级的增高,学生语文学习的倦怠现象往往越来越突出,这直接影响着学生在整个中学阶段的语文成绩,同时也阻碍了初中语文教学质量的提高。因此,如何防止学生学习语文出现倦怠现象,大面积提高教学质量,使学生在初中阶段获得了较好的成绩,是我们语文教师值得研究讨论并着手解决的问题。    一、学生出现语文学习倦怠的原因    (一)羞于开口发表自己的见解  我们都知道,语文是一
期刊
在全面推广新课程改革的今天,什么样的教师在实施着这项改革,是新课程能否成功的关键问题。因此,中小学教师自身修养的提升与完善已经成为当务之急。在新课程改革的过程中,怎样的教师才称得上是合格的教师,广大中小学教师怎样才能成长为合格的教师呢?  笔者认为,作为一名教师,既需要有诸如“敬业”、“奉献”这样的共性品质,同时也需要有个性,提倡教师要成为个性化的教师,这就需要有人格的支撑。因此,完善自身的教师人
期刊
教育部颁发的《九年制义务教育初中思想品德课课程标准(实验稿)》(以下简称《标准》)。从中学生的身心发展规律出发,力图克服形式主义和脱离学生实际的倾向,突出创新精神和时代精神,淡化学科理论体系,突出教学的实践环节,努力增强德育工作的针对性和实效性。因此,思想品德教师只有全面掌握《标准》,准确把握其精神实质,不断更新观念,才能迎接新课程改革的挑战。为此,笔者就初中思想品德课新课程改革教学实践谈谈自己的
期刊
学生是课堂的主人,是教学的出发点和归宿点。只有充分调动学生的主动性,课堂教学的科学与民主才能得以具体地实施,学生的潜能才能得以有效地发挥,素质的培养才能得以真正地落实。《现代教学论》指出:“重建人道的、平等的、和谐的、民主的师生关系是教学改革的一项重要任务。”实践证明,我们的课堂教学只有在这样的师生关系中,才能实现师生的相互沟通、影响和补充。因此,教师必须确立“平等对话”的意识,从真正意义上让课堂
期刊