实时主动数据仓库若干问题研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:xxziliao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,数据仓库技术得到了前所未有的广泛应用,产生了巨大的经济效益。但是,随着市场经济步伐的加快和市场竞争的日趋激烈,传统的数据仓库技术已经不能很好地满足当前企业发展和竞争的需要。传统数据仓库仅为企业高层决策者提供战略决策(Strategic Decision),服务于宏观决策和长远规划,如市场细分、产品管理等。然而,随着市场竞争的加剧,企业越来越希望数据仓库在支持战略决策的同时,也能够为市场一线人员提供实时的战术决策(Tactical Decision)服务,如实时营销、个性化服务等。这种既服务于战略决策又服务于战术决策的数据仓库,被称为“实时主动数据仓库”(RTADW,Real—time Active Data Warehouse)。根据Gartner的研究报告,RTADW已成为数据仓库发展的必然选择,它将进一步提升企业的市场竞争能力。然而,当前对RTADW的研究尚不成熟,许多关键问题急需进行深入研究。   本文深入研究了解决实时主动数据仓库若干关键问题的理论和方法,研究内容包括支持密集查询和更新的实时ODS设计方法、分析规则性能优化方法以及实时OLAP查询性能优化方法。相关方法也在数据库教研室自行开发的实时主动数据仓库原型系统PKU—RTADW中得到了实现,并通过实验验证了提出的方法的有效性,从而验证了本文所提出的创新点的可行性。本文主要贡献如下:   1.提出了基于agent和市场机制的支持密集查询和更新的实时ODS设计方法   本文设计了一种支持密集查询和更新的、具有高可扩展性和伸缩性的实时ODS体系架构。对于此ODS体系架构,动态负载均衡是核心问题,针对该问题,本文提出了基于Agent和市场机制的MBA(Market,Bid and Ask)方法,它采用经济学领域的市场机制来解决ODS内多个服务器节点之间的实时查询负载快速均衡问题。在MBA方法中,ODS服务器节点被视为市场中的交易者(每个交易者都对应一个Agent),不同交易者按照指定的市场规则进行负载交换,负载交换是通过数据的迁移实现的。本文给出了市场机制中交易者的报价公式,并证明了采用该报价公式可以使ODS系统最终达到负载均衡状态;同时也证明了负载均衡过程的收敛速度与ODS服务器节点数目无关,从而说明MBA方法具有高可扩展性。大量实验表明,MBA方法能比已有的其他方法(比如Round—Robin,DAH和DDMC)取得更好的性能。   2.提出了基于新的主动决策引擎体系架构的分析规则性能优化方法   本文设计了一种新的具有“视图池”的主动决策引擎体系架构,它可以对分析规则CUBE进行有效管理,从而实现分析规则的性能优化。其中,视图池的视图选择和替换是核心问题,它直接影响到分析规则的性能,因此,本文研究了针对视图池的高效视图选择方法:提出了使用基于主动决策引擎日志的数据挖掘,来发现分析规则使用多维数据(CUBE)的模式,包括CUBE概率矩阵和近期受访CUBE等;结合从日志挖掘得到的CUBE概率矩阵和系统实时统计信息,本文提出了3A概率模型,并引入多维数据格理论,设计了包含结点受访概率分布的CUBE的多维数据格;在此基础上,本文给出了考虑CUBE受访概率和CUBE使用模式的视图选择算法PGreedy,实验证明,PGreedy算法可以比传统的算法(如BPUS)取得更好的性能。   3.提出了针对历史数据和实时数据的OLAP查询的两种性能优化方法   针对历史数据的OLAP查询,本文主要研究采用用户缓存实视图提高查询的响应速度,其中,针对用户缓存的视图选择和替换是核心问题;为了实现针对用户缓存的高效视图选择,本文提出了基于多维数据格理论的实化视图树的概念,并以实化视图树作为用户缓存中的实视图的组织方式,从而把用户缓存实视图的动态调整问题转化成等价的实化视图树的动态调整问题;本文以“保留路径”为参照,设计了合理有效的视图替换策略—KPM方法。实验证明,本文的方法可以比其他方法取得更好的性能。   针对实时数据的OLAP查询,本文提出基于层的视图机制,来保证查询的内部一致性和解决查询冲突问题,以实现查询的性能优化。本文定义了层和视图的概念,设计了锁机制、层和视图机制以及基于层的视图机制算法,并证明了该方法可以保证OLAP查询的内部一致性。设计并开发了原型系统,并在此基础上进行了一系列实验,实验结果表明,基于层的视图机制可以有效解决查询冲突问题,明显提高了实时OLAP查询的性能。
其他文献
现代空天飞行技术和传感器技术的高速发展,为人类提供了极为丰富的遥感图像数据。为了高效地从遥感图像中提取有效信息,利用计算机系统解译遥感图像,即进行遥感图像理解,已成为遥
学位
随着互联网技术的快速发展和广泛应用,人们都处于一个信息高度共享的、更加连通的世界。如今,在学术、工业和商业领域的成果和产出已不仅适用于单一国家,也同样适用于全球的各个
流形学习和半监督学习是当前机器学习领域的研究热点,已经受到越来越多研究者的关注。作为一种非线性的维数约减方法,流形学习能够有效地学习出高度非线性、属性强相关的高维流
近年来出现的计算机辅助手术系统,仿真手术系统等为临床医学开辟了一个新的领域——将计算机图像处理与分析、计算机图形学、虚拟现实等技术应用于医学领域,形成了一门新的交叉
面对日益激烈的市场竞争,企业需要更快更及时地了解和掌握业务运行状况,提高快速响应市场变化的能力。仪表盘(Dashboard)是反映公司状况和商业环境并辅助商务智能和绩效管理活
随着计算机技术、图像处理技术的迅速发展,外科诊断与治疗的手段正在发生着很大的变化。近年来出现的计算机辅助手术系统,仿真手术系统等就是信息科学迅速发展并应用于医学领域
近年来,伴随着信息技术的迅猛发展和广泛应用,伴随着水利事业的发展和改革,水利信息化建设也取得了丰硕的成果,逐渐成为现代水事活动的重要支撑,成为水利现代化的重要带动力量。 
车牌识别系统作为自动识别车辆的一种重要形式,为城市智能交通管理系统中不可或缺的重要组成部分,广泛用于路桥、隧道等卡口的自动收费系统、现代住宅小区、停车场、重要机关单
随着我国经济的发展和科技的进步,汽车已经变得越来越普及,已经成为人们生活中不可以缺少的交通工具。汽车在给我们生活提供便利的同时,它的故障也给我们的安全带来了隐患。
动态嵌入式木马文件是由实现木马功能的代码加上一些特殊代码写成的DLL文件,并嵌入到进程中实现恶意功能。由于动态嵌入式木马具有良好的隐藏性,该木马经常被用来盗取银行或