论文部分内容阅读
随着网络技术和信息技术的发展,企业所面对的市场竞争日益加剧,用户的需求也越来越个性化,对市场变化做出快速反应就成为了企业赢得竞争的关键。数据仓库就是为了满足和支持企业管理决策而生的,随着互联网和Web技术的发展普及,以及云计算概念的出现,在以B/S应用架构为主的Web领域也开始大量的使用数据仓库。然后,随着Web2.0网站的兴起,对数据库的需求已经发生了转变,其中对数据高并发读写的需求、海量数据高效率存储和访问的需求、数据库高可扩展性和高可用性的需求越来越高,但是如事务一致性、写实时性、读实时性以及复杂的SQL查询等却并不多,因此就诞生出了一种能够适应上述需求的新型数据库,就是非关系型数据库,也就是NoSQL。由于关系型数据库依然是数据存储的主要媒介因此在构建数据仓库时也主要依赖于关系型数据库系统但是在数据仓库中查询分析要远远多于修改和删除操作,因而关系型数据库的功能应用很少,这是一种非常适用NoSQL的应用场景。本论文就是以基于非关系型数据库(NoSQL)的Web数据仓库系统为研究对象,使用非关系松散数据存储类型作为基础完成一个轻便、高效的Web数据仓库框架的设计为目标。论文完成的主要工作有以下几点。(1)首先通过对国内外学者的一些经典的和最新的研究进展进行整理和归纳,对本文中所使用的数据仓库和非关系数据仓库的概念和技术进行简要概述,并对国内外发展现状和主要应用进行分析。(2)对Web数据仓库的体系结构和构建方法进行深入研究。Web数据是由文本、图片、声音、图像内容等组成的,这些数据多存在于企业服务器和网站的HTML文件中,它们没有严格的结构及类型定义,属于半结构和非结构化的数据。由于Web数据与传统的结构化数据有着巨大差异,这就使传统的数据集成技术难以应用到Web数据仓库的构建过程当中,需要针对Web数据的特点设计由数据层、中间件层、数据仓库层组成的三层数据集成框架。以及由表示层、应用层和数据层组成的Web数据仓库体系结构。(3)基于MySQL的数据仓库构建流程。目前众多的Web2.0网站均是基于开源软件进行开发,开源软件的主流开发框架是有Linux操作系统、Apache或Nginx服务器软件以及MySQL数据库所组成。由于MySQL作为数据库管理系统在Web2.0网站中的应用及其普遍,因此,基于MySQL的数据仓库对Web2.0网站来说是一种降低安装、维护以及学习成本的解决方案。本文会结合Web数据集成技术以及Web数据仓库体系结构设计基于MySQL的数据仓库解决方案(4)设计NoSQL数据仓库多维模型和框架。由于MySQL是一种轻便、开源的关系型数据库管理系统,其在功能和性能方面存在着很多缺陷和限制,单纯的使用MySQL进行数据仓库的构建存在着诸多的问题,比如大数据量的存储和查询、高速读写、分布式等方面的弱势。而NoSQL的出现从一定程度上弥补了这些问题。因此使用开源的NoSQL来结合MySQL构建Web数据仓库,尤其是多维Web数据仓库,可以在无需进行大量投资的情况下,进一步提升数据仓库的统计、分析能力。通过上述几个方面的工作本文提出一种使用开源软件(NoSQL和MySQL)来构建多维数据仓库的解决方案,帮助众多的中小型互联网企业,在无需更多成本提升的情况下,也能完成数据仓库的建设,为企业的决策提供数据支持。