基于云计算的数据仓库架构设计

来源 :中国地质大学(武汉) | 被引量 : 0次 | 上传用户：yst598

【摘要】

：

数据是信息的载体，信息是数据的内涵。在互联网高速发展和上网人群急剧增长的今天，对于提供网络服务的互联网公司来说，每日都有数以百万计的独立访问用户数，即系统每日要收集大量

【作者】

：

牛晓丹

【机构】

：

中国地质大学(武汉)

【出处】

：

中国地质大学(武汉)

【发表日期】

：

2010年期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

数据是信息的载体，信息是数据的内涵。在互联网高速发展和上网人群急剧增长的今天，对于提供网络服务的互联网公司来说，每日都有数以百万计的独立访问用户数，即系统每日要收集大量记录用户浏览信息的Web日志，这些日志数据具有海量、多样、异构、动态等特征。为了增强用户粘性和提高企业效益，需要进行Web日志分析，但传统的数据库已经不能满足海量日志数据对于存储空间和处理时间的要求。所以，如何构建一个更加高效、廉价的海量数据处理系统来存储和处理Web日志数据成为一个关键性的问题。　　基于这样一个出发点，本文是基于某企业商业日志数据分析的大环境下，在分析了该企业对于数据处理的定位与需求的基础上，利用一个开源的Hadoop分布式处理平台构建一个高效、稳定的分布式数据仓库系统，从而解决在存储空间和处理时间上的要求，用以满足企业对海量数据处理的需求。　　首先分析系统的数据存储和管理模块，从Hadoop分布式平台的数据存储和管理、Oracle数据库中数据的存储与管理两部分进行阐述的。接下来进行系统核心模块数据处理框架的设计，首先在分析Hadoop集群技术及自身数据处理需求的基础上，对Hadoop分布式平台进行了一层轻量级的封装，并从任务XML配置、任务XML解析、框架调用方面进行了详细阐述；接着进行数据仓库中数据处理的架构设计，根据数据模型将数据仓库划分为ODS(Operation Data Store)层、DW(Data Warehouse)层、DIM(Dimension System)层和DM(Data Mart/Data Mining)层四个模块，自行开发存储过程对数据进行抽取、清洗和装载，并按主题进行重新组织，利用Oracle RAC集群技术实现并行查询，最后采用Business Objects(简称BO)产品进行前端报表的开发直接面向最终数据用户进行数据分析。然后介绍Hive技术应用模块，数据挖掘人员也可以通过Hive技术直接从Hadoop平台上提取数据，将各种业务数据和清理后的web数据进行关联，首先使用传统的雪花模型创建Hive表，然后进行多表之间的Hive表关联。Hive框架的使用，使得程序员进行数据的处理效率提高很多，Hive可以像操作数据库中的数据一样操作分布式文件系统中的数据。最后描述了一种任务调度系统来满足数据处理平台上的多任务调度，通过简化的并行、依赖两类任务关系描述平台上多任务之间的调度顺序，从而实现方便的任务调度处理；此外，多任务调度系统还可以捕获任务的运行状态，在任务运行失败时进行报警，以便使问题能够得到及时的处理。　　最后，在系统测试与分析中，给出了Hadoop集群的软硬件环境部署，依次对数据导入、任务调度和监控管理等模块进行了测试，并利用一个实际的案例进行了说明。从案例中可以看出，本文的基于云计算的数据仓库系统能够满足设计之初的需要，符合论文研究之初期望达到的效果。

其他文献

基于GIS的地质数据处理的研究及应用

当今信息技术突飞猛进，信息产业获得空前发展，信息资源呈爆炸式扩张。多尺度、多类型、多时态的地理信息是人类研究和解决土地、环境、人口灾害、规划、建设等重大问题时所必需

学位

基于可信执行环境的终端安全技术与应用研究

随着物联网、云计算等新型应用场景的飞速发展，以及各类计算设备性能的大幅提升，终端平台所承载的敏感计算和用户隐私面临的安全威胁显著增加。传统的软件安全防护技术已无法抵

学位

终端安全可信执行环境隔离架构白名单监控体系

软件体系结构分析方法集成技术研究

软件体系结构分析利用各种数学或逻辑的分析技术，针对系统的一致性、正确性、质量属性、规划结果等不同方面，提供描述性、预测性和指令性的分析结果。随着软件体系结构的作用从

学位

九宫格EPG设计与实现

EPG，即Electronic Program Guide(电子节目指南)，而九宫格EPG，就是具备横竖3排，一共有九个按键的电子节目指南系统，其中每个按键相对应一个功能模块，实现相应的功能。通过九宫格EPG

学位

基于分级地名库的中文地理编码的研究与实现

据统计，在人类社会的生产和生活中，会接触到各种各样的信息，这些信息中有80％以上与地理分布和空间位置有关，但是这些信息大部分都只是对地理位置的描述信息，无法被计算机所应用，而地

学位

全球眼综合管理系统的设计与实现

全球眼业务是中国电信集团推出的基于宽带互联网技术的图像远程监控、传输、存储、管理的增值业务。他充分利用网络资源，为越来越多政府部门、企业及个人用户解决了由于地域原

学位

基于信息服务的可扩展工作流引擎的研究

工作流的概念来源于生产组织和办公自动化领域,通过将工作分解成定义良好的任务、角色,按照一定规则和过程来执行这些任务,达到提高工作效率和经营管理水平的目标。随着计算

学位

可扩展工作流引擎MVC架构信息服务C/S模式

基于SIP协议的通信系统在Fchord模型下的应用研究

SIP(会话初始协议)是由IETF(因特网工程任务组)提出的信令通信协议,它以多媒体通信为基础,用来管理网络中的多媒体会话。SIP协议自从产生之后得到了大多数电信运营商的支持,

学位

SIP协议通信系统Fchord模型工作原理对等网络

长焊缝激光拼焊焊缝碾压预成型技术研究

激光焊接作为激光加工的重要组成部分,其应用范围几乎涵盖了所有的焊接领域,其中的激光拼焊技术更是在汽车制造领域中处于举足轻重的地位,激光拼焊是采用激光作为能源,将若干

学位

无线传感器网络智能分簇路由算法研究

无线传感器网络可广泛应用于军事、环境、医疗、工业、家庭等领域,因此具有非常广阔的应用前景,引起了国内外研究学者的高度重视。由于无线传感器网络中节点的能量、处理数据

学位

无线传感器网络分簇路由协议蚁群算法Dijkstra

基于云计算的数据仓库架构设计

与本文相关的学术论文