基于Hadoop的ETL系统的设计与实现

来源 :电子科技大学 | 被引量 : 5次 | 上传用户：fooguo3007

【摘要】

：

在当前电信运营商大数据转型的形势下,运营商的数据量级是各行业中是数一数二的规模。而在运营商的数据管理与分析决策中,对拥有的大数据的分析汇总与挖掘是相当重要的。目前

【作者】

：

王传金

【出处】

：

电子科技大学

【发表日期】

：

2018年01期

【关键词】

：

ETL系统 Hadoop 数据抽取数据加载数据清洗

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在当前电信运营商大数据转型的形势下,运营商的数据量级是各行业中是数一数二的规模。而在运营商的数据管理与分析决策中,对拥有的大数据的分析汇总与挖掘是相当重要的。目前,很多的运营商花费了巨大的时间与资金在构建自己的数据仓库系统与办公自动化系统中,以此来分析各种各样的数据。在这些数据中,数据的增加速度是相当的迅速,而这些数据中也隐藏了很大的运用价值。不过,运营商在浩瀚的数据海洋中也在寻找对于自身市场机会有用的价值数据,但是目前已经被挖掘的价值可能只占当前数据总量的百分之十左右。由此看来,运营商可能在各个数据仓库环节浪费了很多的机会与时间,并且也丢掉了商业契机与竞争机会。所以,在数据仓库各环节的构建中,运营商也开始思考如何用各种各样的技术环节将拥有的大数据资产变换为自己的商业机会与竞争机会。ETL是数据仓库建设中的一个基础环节,是其他环节数据处理的最底层,它主要负责数据仓库中数据的数据抽取、数据转换(清洗)与数据加载(Extract-Transform-Load,ETL),它对上游系统各个数据源进行数据的采集,并且将结构性或非结构性的数据进行业务规则与需求的转换与清洗,然后根据数据仓库物理化的模型表结构加载至各个目标数据仓库与数据集市当中,并进行权限的赋予、日志的记录。但是现在超大的数据规模已经使得传统的ETL方式遇到了很大的瓶颈,已无法满足运营商对ETL环节的时间要求。本论文将根据本省某移动运营商中的数据仓库与数据集市的ETL过程,基于Hadoop的etl系统的设计实现。论文主要开展了如下工作:理论学习、文献阅读。在研究课题时,对诸多相关文献进行阅读,并了解了ETL过程的基本流程、概念,学习基于Hadoop的HDFS架构、网络硬件知识、磁盘I/O知识。需求分析。结合调研本省某移动运营商ETL过程现状、并进行客观评估,使得针对系统需求分析工作得以完成。在此进程中,对相关系统、单位的成功经验予以借鉴。系统设计。以理论学习、需求分析作为基础,由此开展系统设计工作。技术应用。本论文中研究的基于HADOOP的ETL系统,将零散大量的任务使用消息模式进行分配,解决了多客户端在大量数据仓库与数据集市加载的难题。利用了hadoop分布式技术较好地解决了海量数据单文件时的拆分难题,在本文最后,总结了全文工作,并对此后研究方向予以总结。

其他文献

一种面向设计前期策划的医疗项目规模估算方法

在基层医院建设过程中,医疗服务功能策划是项目设计前期的工作重点和难点,特别是功能内容和指标的量化分析。在新医改背景下,从基层中医院的特点出发,采用定性与定量相结合的

期刊

建筑策划医疗项目规模估算方法

BIM技术在EPC机电安装工程中的应用

由于机电安装工程系统管道众多,设备线管复杂,与土建、精装修等专业交叉作业,设计图纸不完善,若深化设计不彻底,则对后续安装质量产生不利影响,一旦返工将耗费较大的人力成本

期刊

BIMEPC机电安装深化设计

基于合约设计的移动边缘计算任务卸载策略研究

移动边缘计算将边缘服务器部署到无线局域网侧,将部分计算密集任务卸载到边缘云服务器,从而缩短计算服务与移动设备的距离,降低数据传输成本.考虑移动边缘计算(MEC)环境下的

期刊

移动边缘计算计算任务卸载合约理论

美国社区学院创业教育的特色及启示

回回产卜爹仇贱回——回日E回。”。回祖一回“。回干肉果幻中 N_。NH lP7-ewwe--一”＄ MN。W;- __._——————》砧叫]们羽制作:陈恬’＃陈川个美食 Back to yield

期刊

转型发展创业教育应用型人才

翻转课堂教学模式的个性化教学设计——以“设计色彩”课程为例

翻转课堂教学模式以开放式教育理念开拓了课堂教学空间,笔者通过分解翻转课堂教学模式的组织结构,阐释翻转课堂教学模式的运营规律,并融合“个性化教学”理念,对翻转课堂下个

期刊

翻转课堂个性化教学设计设计色彩

基于目标约束视角的城市土地利用格局优化模拟研究——以呼和浩特市为例

为在最大程度上解决城市土地资源配置与经济建设要求相匹配的问题,实现城市土地利用综合效益最大化目标,以呼和浩特市市区为例,结合2001—2016年研究区城市土地利用结构和布

期刊

城市土地利用CLUE-S模型目标约束呼和浩特市市区

海上导航信息远程传输监控技术研究与应用

将北斗通信技术、船舶自动识别系统技术、航标遥测遥控技术以及GPS差分技术进行有效结合,研制了海上导航信息远程传输监控系统,对我国中、远海海域装有AIS设备的船舶进行跟踪

期刊

海上导航信息GPS远程传输远程监控

血管内皮生长因子家族及其受体在乳腺癌中的表达、意义及以此为靶点的抗血管生成治疗

1．血管内皮生长因子家族及其受体mRNA在乳腺癌组织中的表达及意义目的研究血管内皮生长因子(vascular endothelial cell growth factor, VEGF)家族及其受体mRNA在乳腺癌

学位

乳腺肿瘤血管内皮生长因子受体血管生成淋巴管生成微血管密度微淋巴管密度增殖期细胞核抗原逆转录一聚合酶链反应免疫组化自发性肺转移重症联合免疫缺

宁波地区冬闲田利用现状及对策

通过分析宁波市鄞州区冬闲田利用现状及其空闲成因,从提升冬闲田利用效益角度出发,提出加强宁波地区冬闲田利用的对策,以期强化冬闲田利用,促进农民增收。

期刊

冬闲田利用对策宁波地区winter fallow fieldutilizationcountermeasureNingbo area

农村土地承包经营权抵押贷款模式及创新分析——基于湖南省岳阳县的调查

期刊

农村土地承包经营权抵押贷款贷款模式路径

基于Hadoop的ETL系统的设计与实现

其他学术论文