论文部分内容阅读
随着数据库中数据量越来越大,性能问题变成前所未有的重要。列式数据库以加载速度快、只读取相关属性列、高压缩比等特点在数据分析领域得到广泛的应用。但列式数据库的存储方式又导致其在进行多维度查询等操作中必须用到多列数据的连接构成输出元组,即元组的重构。元组的重构是列式数据库中最耗时的步骤,因此,元组的重构一直是列式数据库研究的热门话题。部分边路划分(Partial Sideways Cracking)作为一种列式数据库的自组织的元组重构方式,不但具有调整代价小的特点,而且根据工作负载进行持续增量的自我调整的特点能很好的满足日益复杂多变的工作环境。但是现有的边路划分仅仅是盲目的根据查询范围对数据库进行调整,这种盲目的调整往往需要付出较高的调整代价,但效果却不是很理想。本课题基于部分边路划分提出了SR部分边路划分(Sorted Robust Partial Sideways Cracking),使得自组织元组重构不但更具有鲁棒性、节省内存,而且进一步提高了自组织元组重构的速度。本课题主要完成的工作有以下几个方面:(1)研究和分析了部分边路划分在自组织元组重构所遇到的问题,并通过实验分析了部分边路划分在不同工作负载下所产生的鲁棒性问题以及对齐操作的代价问题;(2)基于部分边路划分,针对部分边路划分分析所遇到的鲁棒性问题和对齐操作代价问题,提出了SR部分边路划分技术,并通过实验证明了其鲁棒性以及算法优越性;(3)实现了一个基于SR部分边路划分的范围查询数据库系统,为以后的基于SR部分边路划分研究奠定了基础。