论文部分内容阅读
随着信息技术的发展,数据仓库技术得到了前所未有的广泛应用,产生了巨大的经济效益。但是,随着市场经济步伐的加快和市场竞争的日趋激烈,传统的数据仓库技术已经不能很好地满足当前企业发展和竞争的需要。传统数据仓库仅为企业高层决策者提供战略决策(Strategic Decision),服务于宏观决策和长远规划,如市场细分、产品管理等。然而,随着市场竞争的加剧,企业越来越希望数据仓库在支持战略决策的同时,也能够为市场一线人员提供实时的战术决策(Tactical Decision)服务,如实时营销、个性化服务等。这种既服务于战略决策又服务于战术决策的数据仓库,被称为“实时主动数据仓库”(RTADW,Real—time Active Data Warehouse)。根据Gartner的研究报告,RTADW已成为数据仓库发展的必然选择,它将进一步提升企业的市场竞争能力。然而,当前对RTADW的研究尚不成熟,许多关键问题急需进行深入研究。
本文深入研究了解决实时主动数据仓库若干关键问题的理论和方法,研究内容包括支持密集查询和更新的实时ODS设计方法、分析规则性能优化方法以及实时OLAP查询性能优化方法。相关方法也在数据库教研室自行开发的实时主动数据仓库原型系统PKU—RTADW中得到了实现,并通过实验验证了提出的方法的有效性,从而验证了本文所提出的创新点的可行性。本文主要贡献如下:
1.提出了基于agent和市场机制的支持密集查询和更新的实时ODS设计方法
本文设计了一种支持密集查询和更新的、具有高可扩展性和伸缩性的实时ODS体系架构。对于此ODS体系架构,动态负载均衡是核心问题,针对该问题,本文提出了基于Agent和市场机制的MBA(Market,Bid and Ask)方法,它采用经济学领域的市场机制来解决ODS内多个服务器节点之间的实时查询负载快速均衡问题。在MBA方法中,ODS服务器节点被视为市场中的交易者(每个交易者都对应一个Agent),不同交易者按照指定的市场规则进行负载交换,负载交换是通过数据的迁移实现的。本文给出了市场机制中交易者的报价公式,并证明了采用该报价公式可以使ODS系统最终达到负载均衡状态;同时也证明了负载均衡过程的收敛速度与ODS服务器节点数目无关,从而说明MBA方法具有高可扩展性。大量实验表明,MBA方法能比已有的其他方法(比如Round—Robin,DAH和DDMC)取得更好的性能。
2.提出了基于新的主动决策引擎体系架构的分析规则性能优化方法
本文设计了一种新的具有“视图池”的主动决策引擎体系架构,它可以对分析规则CUBE进行有效管理,从而实现分析规则的性能优化。其中,视图池的视图选择和替换是核心问题,它直接影响到分析规则的性能,因此,本文研究了针对视图池的高效视图选择方法:提出了使用基于主动决策引擎日志的数据挖掘,来发现分析规则使用多维数据(CUBE)的模式,包括CUBE概率矩阵和近期受访CUBE等;结合从日志挖掘得到的CUBE概率矩阵和系统实时统计信息,本文提出了3A概率模型,并引入多维数据格理论,设计了包含结点受访概率分布的CUBE的多维数据格;在此基础上,本文给出了考虑CUBE受访概率和CUBE使用模式的视图选择算法PGreedy,实验证明,PGreedy算法可以比传统的算法(如BPUS)取得更好的性能。
3.提出了针对历史数据和实时数据的OLAP查询的两种性能优化方法
针对历史数据的OLAP查询,本文主要研究采用用户缓存实视图提高查询的响应速度,其中,针对用户缓存的视图选择和替换是核心问题;为了实现针对用户缓存的高效视图选择,本文提出了基于多维数据格理论的实化视图树的概念,并以实化视图树作为用户缓存中的实视图的组织方式,从而把用户缓存实视图的动态调整问题转化成等价的实化视图树的动态调整问题;本文以“保留路径”为参照,设计了合理有效的视图替换策略—KPM方法。实验证明,本文的方法可以比其他方法取得更好的性能。
针对实时数据的OLAP查询,本文提出基于层的视图机制,来保证查询的内部一致性和解决查询冲突问题,以实现查询的性能优化。本文定义了层和视图的概念,设计了锁机制、层和视图机制以及基于层的视图机制算法,并证明了该方法可以保证OLAP查询的内部一致性。设计并开发了原型系统,并在此基础上进行了一系列实验,实验结果表明,基于层的视图机制可以有效解决查询冲突问题,明显提高了实时OLAP查询的性能。