数据仓库缓存及相关技术研究

来源 :中国人民大学 | 被引量 : 0次 | 上传用户:yishumi1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据仓库中存放着海量数据,基于数据仓库的查询和分析操作通常都比较复杂,如何对用户请求提供快速响应,是数据仓库面临的一个严峻挑战。并行处理技术、bitmap索引技术、实体化视图技术等都是提高数据仓库性能的有效手段。但是仅靠这些技术还是不够的,如果每次查询都直接和底层数据存储打交道的话,查询性能的提高终究有限。尤其在多用户并发查询的时候,或者聚集数据需要实时计算的时候,“用过即丢”的处理方式会使系统性能大打折扣。缓存(Cache)技术能够很好地解决这个问题,它利用系统的内存空间将查询结果暂时保存下来用于回答后续查询,从而有效的改善系统I/O状态和运算效率,大幅度提高了系统的性能。  缓存技术的研究始于对操作系统中缓冲区的研究,通常采用随机模型来刻划数据存取行为。在基于数据库的OLTP(On-Line Transaction Processing)应用中对于缓存技术也有较为充分的讨论,但是在数据仓库OLAP(Online AnalysisProcessing)应用背景下对缓存技术的探讨相对较少。本文将主要讨论数据仓库环境下OLAP应用中的缓存技术。  论文首先详细回顾了缓存的主要研究内容和现有技术,包括缓存的粒度和缓存的淘汰算法,分析了数据仓库OLAP应用中缓存的特点。在数据仓库环境下,缓存中的内容是具有语义信息的结果集,与当前的查询模式有关。用户为了完成某项分析任务而执行的“会话”由一系列的查询组成,这些查询在内容上相关,在结构上相似。如果通过分析用户的查询模式,预测其可能的下一步操作,将可能的查询结果提前预取到缓存中,用于回答后续查询,必然会提高缓存的命中率,改善系统的性能。本文逐步深入地提出了4种适应于数据仓库的缓存管理策略:  P-Cache中首先将预取的思想应用于缓存管理器的设计中,并设计了相应的缓存选择与淘汰算法。它从逻辑上把缓存划分成了2个室:“工作室”和“预取室”。“工作室”中存放真正的查询结果集,“预取室”存放用户可能进行的下一步操作的结果。当预取室中的结果被系统命中时,它通过与工作室中的块进行权重比较而进入工作室。实验结果证明了P-Cache的有效性,它提高了缓存命中率,改善了系统性能。同时,克服了传统预取思想的盲目性,解决了如何选取替换块以及何时进行替换的问题。  虽然P-Cache证明了预取缓存策略的有效性,但是在预取块内容的选择上过于简单,没有利用数据仓库的查询相似性特点,本文继而提出了PV-Cache基于预取视图的数据仓库缓存策略,通过分析查询的结构特征,借助于实体化视图的结果,选择与当前查询相关的视图构成“相关查询候选集”;比较该集合中各查询的“查询差异因子”,利用贪心算法预取与当前查询差异最小的视图进入缓存。同时,在预取室大小的选择问题上,利用取样方法构造“响应时间-空间”比例图,由用户选择最佳的时空平衡点,保证缓存效率最佳。  由于数据仓库OLAP用户通常具有一定的领域知识,他们提出的查询是建立在对数据特征理解的基础上。如果能够利用数据自身的特征,挖掘用户可能关注的近似查询,将近似查询结果集预取入缓存,将是一种提高缓存效率的有效途径。基于这种思想本文提出了AP_Cache预取“近似查询集”缓存策略,通过挖掘维层次间的近似函数依赖关系,对它们的重要程度进行排序。然后,根据维层次的重要程度和频繁出现的维值构造维信息“知识表”,利用“知识表”对当前用户查询(“基查询”)进行“松耦合”操作,即减少基查询中非重要维层次上的约束条件,放松对当前查询的限制,获得当前查询的近似查询集,从数据库中取得满足近似查询的元组作为预取内容进入缓存。实验证明AP-Cache的有效性,进一步提高了缓存命中率和系统性能。同时,可以根据不同用户的查询特征为其定制维信息“知识表”,从而满足不同用户的分析需求。  对用户查询的正确预测是保证预取缓存性能的关键,本文还建立了对用户查询模式的预测模型,包括“结构预测模型”和“约束值预测模型”,前者用于预测查询在结构上的变化,后者用于预测查询在约束条件取值上的变化。基于预测模型提出了相应的预测算法,可以对用户查询进行有效的预测。同时,将“预测算法”应用于预取思想的缓存设计中,提出了PM-Cache基于“查询模式预测模型”的缓存策略。通过对真实数据的分析证明了预测算法的有效性,同时也说明了基于“查询模式预测模型”的缓存具有良好的性能。  本文的主要贡献如下:  (1)提出了P-Cache基于“预取”的数据仓库缓存设计方案,将查询可能用到的块提前预取到缓存中,提高了缓存命中率,改善系统的性能。  (2)利用数据仓库OLAP查询的相关性,借助实体化视图的结果,提出了PV-Cache基于预取视图的数据仓库缓存管理方案,进一步提高了预取的准确性,改善了查询性能。  (3)提出了“AP-Cache预取近似查询集”的缓存策略,利用维信息“知识表”对当前查询进行“松耦合”操作,产生“近似查询集”,将其结果预取到缓存中。利用数据自身特点和用户的查询特征选择预取内容的策略,使缓存的设计更加智能和人性化。  (4)提出了基于“用户查询模式”的预取缓存策略,通过对用户查询模式进行抽象,建立了查询的“结构预测模型”和“约束值预测模型”,并利用预测模型设计了预测算法。预测模型有效地刻画了用户分析行为,为基于预取策略的缓存技术提供了有力支持。
其他文献
本文深入分析了Windows2000下的PCI声卡的WDM驱动程序体系结构和开发技术,对开发过程中的关键步骤和问题进行了详细的讨论和分析。论文采用了由普遍到特殊的研究方法,从DDK自带
陆军分队战斗部署是对陆军分队战斗编成内的兵力进行任务区分、编组和配置,是陆军分队战斗决心的重要内容。确定陆军分队战斗部署,是筹划与组织陆军分队战斗的重点。合理的陆军
P2P技术使网络资源得到充分的利用和最大化的共享,正吸引着越来越多的用户参与其中。由于P2P应用研究的初衷是促进信息的共享,因而对信息的安全性考虑不足,使得P2P网络中的访
Ontology是对一个特定领域中重要概念的共享的形式化的描述,由于具有明确性和共享性,它可以作为领域内不同主体之间进行交流的语义基础;更进一步的,Ontology可以帮助机器理解文
随着移动互联网与物联网的技术的飞速发展,人类收集的数据量呈指数级增加。分布式计算已经成为大数据处理、分析过程中不可或缺的关键技术。分布式计算通过将计算任务分解为
指纹识别由于具有唯一性、可靠性,在安全领域得到了广泛的应用。本文综合利用数字图像处理、模式识别、计算智能等方面的知识,对指纹图像分割与增强问题、指纹细节点提取与验
中国教育科研网(CERNET)经过10年的发展,已经成为中国互联网的重要组成部分。在教育部组织实施“西部大学校园计算机网络建设工程”中,受益于该项工程的西部地区152所高校校园
本文对网络计算机操作系统进行了深入的分析与研究,提出了适合于网络计算机的梯形结构模型,并在北大众志网络计算机的硬件基础上对该模型进行了实际验证,即使用动态束系统调用机
传统工作流管理系统的设计从提供功能齐全的工作流服务角度出发,不可避免地导致了系统架构极为庞大,系统的复杂性也随着增大。同时传统的工作流管理系统提供的功能是以集成的
Linux在消费类电子、工控、电信等嵌入式领域得到广泛应用。开发者希望通过对Linux进行实时化改造,满足另外一些嵌入式实时应用需求。替代那些价格昂贵、内核源码不公开、难