论文部分内容阅读
在当前电信运营商大数据转型的形势下,运营商的数据量级是各行业中是数一数二的规模。而在运营商的数据管理与分析决策中,对拥有的大数据的分析汇总与挖掘是相当重要的。目前,很多的运营商花费了巨大的时间与资金在构建自己的数据仓库系统与办公自动化系统中,以此来分析各种各样的数据。在这些数据中,数据的增加速度是相当的迅速,而这些数据中也隐藏了很大的运用价值。不过,运营商在浩瀚的数据海洋中也在寻找对于自身市场机会有用的价值数据,但是目前已经被挖掘的价值可能只占当前数据总量的百分之十左右。由此看来,运营商可能在各个数据仓库环节浪费了很多的机会与时间,并且也丢掉了商业契机与竞争机会。所以,在数据仓库各环节的构建中,运营商也开始思考如何用各种各样的技术环节将拥有的大数据资产变换为自己的商业机会与竞争机会。ETL是数据仓库建设中的一个基础环节,是其他环节数据处理的最底层,它主要负责数据仓库中数据的数据抽取、数据转换(清洗)与数据加载(Extract-Transform-Load,ETL),它对上游系统各个数据源进行数据的采集,并且将结构性或非结构性的数据进行业务规则与需求的转换与清洗,然后根据数据仓库物理化的模型表结构加载至各个目标数据仓库与数据集市当中,并进行权限的赋予、日志的记录。但是现在超大的数据规模已经使得传统的ETL方式遇到了很大的瓶颈,已无法满足运营商对ETL环节的时间要求。本论文将根据本省某移动运营商中的数据仓库与数据集市的ETL过程,基于Hadoop的etl系统的设计实现。论文主要开展了如下工作:理论学习、文献阅读。在研究课题时,对诸多相关文献进行阅读,并了解了ETL过程的基本流程、概念,学习基于Hadoop的HDFS架构、网络硬件知识、磁盘I/O知识。需求分析。结合调研本省某移动运营商ETL过程现状、并进行客观评估,使得针对系统需求分析工作得以完成。在此进程中,对相关系统、单位的成功经验予以借鉴。系统设计。以理论学习、需求分析作为基础,由此开展系统设计工作。技术应用。本论文中研究的基于HADOOP的ETL系统,将零散大量的任务使用消息模式进行分配,解决了多客户端在大量数据仓库与数据集市加载的难题。利用了hadoop分布式技术较好地解决了海量数据单文件时的拆分难题,在本文最后,总结了全文工作,并对此后研究方向予以总结。