论文部分内容阅读
数据仓库是集成了多个分布式、自治或异构数据源上的信息的数据储藏室,主要用来存储供查询和决策分析用的集成化信息。随着数据仓库应用的不断扩展和深入,数据仓库从脱机维护到联机维护,从面向单用户到为多用户服务,是一个必然的过程。在这一发展过程中,数据仓库的实化视图维护是保证整个系统可用性和可靠性的一个关键问题。实化视图维护是指在数据仓库为用户提供服务的同时,在数据源的原始数据发生改变时,实时地将这种变化反映到数据仓库中,使相应的实化视图得到及时的刷新。
本文首先阐述了数据仓库中实化视图维护的基础知识,包括视图的四个一致性级别、数据仓库体系结构、数据仓库视图维护策略及实化视图的分布等内容。介绍了P2P这种新近兴起的网络模型的主要特点,分析了传统的视图维护模型的主要不足。
本文的主要贡献与创新是针对传统的C/S视图维护模型中负载失衡和维护瓶颈问题,借鉴P2P的对等思想,将P2P引入到视图维护的体系结构中,构建了基于P2P的分布式、并行、主动视图维护架构P2PAVM,设计了全新的视图维护架构及其工作机制,探讨了节点管理与路由等关键问题,对数据仓库和数据源的工作任务进行了重新部署:首先,让每个DS节点除了提供数据存储功能之外,还能主动地进行更新后的查询和维护工作,即还扮演了传统的C/S模型中DW节点的角色。同时,为了保持节点的自治性,系统中的DS节点只需对其衍生关系的更新主动发起维护,有效地实施了计算的分布与负载的均衡,进一步扩充了并行计算能力。
针对P2PAVM视图维护架构的环境特点,提出了基于P2PAVM架构的并行多维视图维护方法。该方法在联机补偿维护方法中引入自维护方法和相关性更新处理,将这三种不同类别的算法有机地融合为一体。算法首先由更新节点对更新进行相关性检测,将不影响实化视图状态的不相关更新直接抛弃。对于相关更新,则由更新节点根据各相关视图的维护类型,确定对各相关视图进行并发联机补偿维护或自维护。同时,该方法修正了Sweep算法只能顺序处理的瓶颈,赋予其并行处理能力,并针对P2PAVM架构提出了PPPSweep算法。对于单个更新,PPPSweep算法通过并行执行左右扫描过程来完成维护计算;对于并发更新,该算法通过延缓当前更新的计算,递归地处理并发更新的计算。增加了系统对更新的吞吐能力,减少了维护的延迟。此外,在对维护查询进行分解时,除了使用PPPSweep算法的左右并行扫描方法之外,本文还提出了另一种可供选择的维护查询并行分解方案。该方案在增量式视图维护的基础上对维护查询进行分解,将分解后的维护子查询同时发送给相关节点,而这些节点可以相对独立地同时对维护子查询进行计算,进一步以并行的方式提高维护实化视图的效率。该方案提出了自顶向下地构造分解树、自底向上同层节点并行计算维护子查询结果的方法,从查询本身实施对实化视图维护的优化。
最后,本文针对分布式环境下模式与数据全面并发更新的典型情形,讨论了P2PAVM架构中的并行维护关键技术,分析了在全面并发更新条件下导致的维护异常问题,并给出了基于时态演算的并发更新侦测策略扣用于解决乱序提交的提交代理机制。