基于Hadoop平台数据迁移系统的构建与应用效果研究

来源 :科学与财富 | 被引量 : 0次 | 上传用户:hawkzhou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:伴随着web2.0、云计算、物联网等概念和技术的提出与快速发展,信息时代越来越体现出它的“大数据”特征。为了发挥大数据的价值,数据仓库、数据挖掘技术在商业、军事、经济、学术等众多领域越来越收到重视,正发挥着越来越大的作用。与此同时,庞大的数据规模也向传统的数据挖掘工作提出了重大的挑战。依靠云计算等分布式计算平台所提供的强劲处理能力,将数据挖掘与云计算相结合正在成为行业的趋势,正不断地显现出其强大的优势和潜力。
  1、Hadoop的来源
  Hadoop源于2002年开始的Apache Lucene的子项目之一开源搜索引擎Apache Nutch。为了使Nutch搜索引擎可以适应越来越庞大的数据增长,提高数据处理能力,保证搜索速度和精度,急需引入一种高效的分布式计算结构。Hadoop在2008 年初就被Apache 公司列为了顶级项目,并成为了许多互联网公司如雅虎、Facebook、Twitter等基础计算平台的一个基础部分。目前的Hadoop系统已经逐渐发展成为包含HDFS、MapReduce、Pig、HBase、Hive 等众多子项目的集合,越来越多的被用于分布式计算。
  Hadoop的核心技术是MapReduce并行编程模型和HDFS 分布式文件系统,HDFS 采用分布式的方式存储文件,其很高的容错性使其可以方便可靠的部署在低廉的计算机集群中,提高了文件的读写速度,同时扩大了存储用量。采用MapReduce来整合处理分布式文件系统上的数据,使分布式开发变得系统化,也保证了执行效率。
  2.Hadoop平台系统结构
  Hadoop所采用的分布式系统属于一种被称为“向外扩展”的增强计算能力的方式。于此相对应的方式被称为“向上扩展”,这种方式以大型单机服务器为代表。在过去的几十年间,计算机的发展和计算能力的提高是遵守摩尔定律的。
  随着数据的不断增加,人们发现,解决大规模计算问题不能单纯的依赖于制造越来越大型的服务器,需要另辟新径,开始在向外扩展的方向上考虑问题的解决办法。Hadoop的向外扩展,即把许多低端或商用机器组织自在一起,形成一个功能专一的分布式系统。
  利用Hadoop的集群合作,得到的不仅是强大的计算能力,同时通过将数据集划分为较小的块(通常为64M),依靠Hadoop将其适度的复制并分布到集群的多台机器上,使得集群可以并行的读取数据,进而提供了很高的系统吞吐量,这对于目前网络上的大数据环境(数据密集型作业)而言,是必不可少的重要能力Hadoop主要处理的是数据密集型任务,这类任务的数据规模很大,数据迁移就变得十分困难。因此,Hadoop强调的是把代码向数据迁移,在一个提供计算服务的Hadoop集群内部,既包含数据又包含计算环境。客户端仅需向集群发送待执行的MapReduce程序,让这些可执行移动到数据所在的机器上去,而这些程序通常在规模上比数据小几个数量级,移动程序比移动数据容易很多。在计算的整个过程中,数据不动,总是存储在进群中的各个数据节点上的,不会发生客户端和集群间的计算数据交互。更重要的是,在Hadoop集群的内部,也体现了代码向数据迁移的理念,数据被分块后在集群中分布,Hadoop在执行任务时会尽可能让对一段数据的处理发生在储存这段数据的一台计算机上。这种设计理念服务于Hadoop面向数据密集型任务处理的设计目标,极大地减少了数据在网络上传递所占用的带宽,降低IO 压力,避免了任务计算时的数据瓶颈。
  3、基于Hadoop平台数据迁移基本任务
  数据挖掘的任务决定着数据挖掘工作的方向,指导着算法寻找什么样的数据模式。数据挖掘的步骤会随不同的挖掘任务和不同的应用领域而有所变化,一般地,可以根据工作的特点,将数据挖掘任务分为两大类:描述性挖掘和和预测性挖掘。描述性挖掘任务着眼于发现数据的一般特性,对与数据库中已经存在的数据进行刻画,包括概括、总结数据,寻找数据间关系、类型等。预测性挖掘主要根据当前数据做出推断,以对更多的或者新加入的數据进行预测。根据数据挖掘的具体任务不同,挖掘结果中会得到不同的数据模式。数据挖掘系统要有挖掘多种类型数据模式的能力,以适应不同的任务和用户要求,并允许用户参与数据挖掘过程,指导或聚焦其感兴趣的数据模式的挖掘。
  3.1数据迁移算法
  1)数据描述和可视化
  数据库中存放的数据条目通常含有大量的细节数据,这些细节数据可能含有某种整体趋势,但是由于其琐细而且杂乱,直观的发现某些规律或趋势变得十分困难。因此,用户通常希望找到一种更加直观形式来描述数据集。用汇总的、简洁的、精确的方式描述数据库中条目中包含的每个条目类型和概念是十分有用而且必要的。
  这种描述数据的方法可以提供某一类数据的概貌,或者是将它与不同的某类数据进行区别。可以使用多种可视化方式将数据描述特征的的结果进行输出,多种统计图表是一种很方便直接的选择,包括柱状图、曲线图、饼图、雷达图等等。数据仓库领域的多维数据方和包括交叉表在内的多维数据表也是很好的选择。图表中也可以加入一些针对性的特殊数据标注和度量,并允许用户对可视化输出进行操作。挖掘结果也可以通过规则叙述的方式描述给用户,或者通过总结其中的泛化关系,将二次的结果提炼呈现给用户。
  2)相关性分组或关联分析
  数据来源于真实世界,因此,现实世界中事物间存在的联系也体现在数据库中的数据之间。数据挖掘中,若两个或多个变量的取值之间存在某种规律性,就称为关联,比如在一次购买活动中有两种或多种商品总是被同时购买。但是,数据之间的关联是复杂的、而且总是隐含的。根据数据关系呈现的方式不同,可以分为简单关联、时序关联、因果关联和数量关联等。这些关联并不总是事先知道的,大多都需要通过对数据进行关联规则挖掘而主动地去发现,往往在这些关系蕴含着在商业决策等方面的重要价值。
  3.2Driver 和算法流程
  完成了MapReduce过程的编写以后,为了将k-means算法任务部署到Hadoop环境中去执行,还要完成其任务声明和参数配置。为此,我们要完成MapReduce框架的核心run 方法,该run 方法被称为MapReduce的Driver。Driver 的任务是实例化、配置并传递一个作业配置对象JonConf命名的作业,通过与JobTracker通信用在集群上启动MapReduce作业。该JobConf对象应包含保持作业运行所需要的全部配置参数。在Driver 中,我们要为MapReduce作业定制基本参数,包括聚类数据集的输入路径、结果的输出路径、前面实现的Mapper 类和Reducer类。而且,还需要根据输入数据和输出数据的格式和程序要求,重置默认的作业属性,这里我们使用TextInputFormat作为输入数据集的输入方式。一旦JobConf对象被完成并传递给JobClient,他就被视为作业的总体规划,成为了决定这个作业如何运行的蓝本
  4、结论
  使用多台普通PC 主机搭建分布式集群,并在不同规模的人工生成数据集上进行了聚类式数据挖掘的实验。通过对多次不同数据和计算机集群规模的对比试验,证明了在Hadoop分布式计算环境上部署数据挖掘任务的可行性,并通过加速比,效率,数据伸缩性和集群的可扩展性等方面的分析,验证了该方案的计算优势和发展潜力。
  参考文献:
  [1]Jeremy Chow, Redpoll: A machine learning library based on hadoop,CS Dept. Jinan University, Guangzhou,2010
其他文献
摘要:当今世界的经济与社会高速发展,同行企业之间的竞争越来越激烈,存货管理对于企业长久的发展和壮大变得十分重要。尤其是对于零售商的连锁超市而言,存货内部控制不但是零售商经济业务的关键构成部分,也会影响到零售商企业成本和盈利的控制,进而影响企业的可持续健康发展。基于此,本文以大型零售商沃尔玛超市为例,分析了其存货内部控制存在的问题,进一步提出了其完善存货内部控制的对策方法。  关键词:零售商;存货;
期刊
摘 要: 通信工程与人们的生活息息相关,密不可分。现在的科学技术日益发展且速度飞快,通信工程的项目管理具有很大的促进作用,所以确保通信工程的施工质量具有非常重要的意义。为了达到预期的目标,文本就如何控制好通信工程项目施工中的进度、质量、成本以及安全制度展开论述,以确保通信工程项目的顺利实施,为国家经济的发展提供强有力的基础和保障。  关键词: 通信工程;项目管理;成本与质量的控制  前言:目前,随
期刊
摘要:在工業生产过程当中,DCS系统被广泛地应用于其中的各大环节。由于其强大的处理性能和实时监控机能,DCS系统在如今的工业生产过程中有着十分重要的意义。但DCS系统在为我们的工作过程带来便利的同时,其也在一定程度上增大了我们对这一系统的依赖性,使得我们在DCS系统出现故障时难以及时应对。本文简要阐述宝泰隆新材料股份有限公司各子公司及各分厂生产过程中DCS系统常见的一些故障原因,并针对性提出了一些
期刊
摘要:随着社会的进步和人们生活水平的不断提高,天然气作为人们生产生活中重要的能源供应,其供应的规模和应用范围也越来越大。天然气储配站主要作用是储存和分配天然气,其储配站的安全管理工作是天然气供应得以顺利及有效进行的基础和前提。天然气储配站安全管理的质量水平直接关系着天然气储配站在其储存、分配和供应环节中的安全性、有效性和长久性。本文通过分析天然气储配站存在的一些安全风险问题来阐述天然气储配站安全管
期刊
摘要:煤矿通风机是煤矿主要设备之一,只有通风机正常运转才能保证煤矿的正常生产:所以煤矿用通风机要按期对其进行检测检验从而保证通风机的正常运转。在检测检验过程中常常会遇到通风机振动超的问题,本文对通风机振动超标的原因及检测做出了分析。  关键词:煤矿;通风机;振动原因  引言  据统计,我国煤炭工业生产中,因煤矿通风设备而发生的事故中,机械事故占通风机组事故的68.9%,尽管一部分事故因有备用通风机
期刊
摘要:随着技术的发展,数控机床已经成为制造业的支柱之一,而数控机床在实际运用中暴露出一定的问题。本文主要对数控系统受到电磁干扰的问题进行研究分析,对电磁干扰的主要来源与具体耦合方式进行分析,再结合数控机床的实际工作经验,对数控系统抗干扰提出一些具体措施,以提高数控机床的稳定性。  关键词:数控机床;电磁感应;电磁干扰  技术的进步改变了工业生产模式,数控机床实现了高效且高质量的机械化生产,是工业自
期刊
摘要:当前,面对层出不穷的复杂油井,井下落物作业技术的提升已成石油企业需要着重思考的问题。井下落物打捞属于井下作业的内容之一,其技术还存在很多问题,对我国石油企业的开采工作带来了不利的影响。井下落物严重制约着油水井的正常生产状态,必须采用先进的工艺技术措施,打捞各种井下落物,恢复油水井的正常生产。  关键词:井下落物;打捞技术;措施  1.井下落物打捞概述  凡是从井口掉落进入井下的金属或者有形的
期刊
摘要:随着科技的发展,互联网逐渐融入人们的日常生活中,并成为人们生活内容中重要的一部分,同时在工作方面,互联网的加入也为企业提供了全新的人力资源管理模式,换而言之,互联网的加入为企业人力资源方向的管理工作提供了研发平台和前进动力。基于此,企业的管理者如果想要在竞争激烈的社会大市场中突出自身优势,并在社会中占领一席之地,实现科学的可持续化发展,就必须在互联网时代的发展下把握机会,充分发挥互联网对于人
期刊
摘要:自上世纪中叶李四光在我国勘探石油至今,我国的石油化工产业已经发展了半个多世纪,技术逐渐成熟,工艺逐渐进步,设备也越来越先进。随着我国石油化工技术的进步,人们逐渐意识到石油化工产业在工业生产和生活中的重要地位,同时石油化工产业的高危险性也深入人心;该产业链涉及危险物质较多,工艺复杂,设备繁多,一个不注意的小失误就可能酿成极大的事故,对人民的财产和人身安全造成极大的损失。因此,对该产业涉及的所有
期刊
摘要:煤矿机电安全是矿山安全的重要组成部分,随着科技的飞速发展,先进技术不断在煤矿中应用,机械化水平有很大的提高,机电安全问题日益显现。并且随着市场经济体制推进,为煤矿行业带来了新机遇与新挑战。由于煤矿机电管理是整个煤矿生产中最重要的环节,机电管理的工作质量会直接影响生产的正常进行,如果管理不到位,煤矿生产就不能够正常运行,会直接降低煤矿企业的经济效益。,本文从实际出发,主要阐述了煤矿机电管理的现
期刊