基于宽表的多租户数据存储模式研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:supermilk009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多租户数据存储是软件及服务(SaaS,Software as a Service)中一个重要的研究内容。针对SaaS应用“单实例多租赁”的特点,人们提出了很多解决多租户数据存储问题的方法,其中基于关系型数据库模式映射的宽表存储是一种常用、有效的SaaS多租户数据存储的解决方法。但为了保证租户的定制需求,宽表存储往往需要预留足够的列,导致数据具有很大的稀疏性,同时模式映射较为复杂,影响数据空间利用率和查询效率。本文针对多租户数据宽表存储方法在数据空间利用率和查询效率方面的不足,提出一种基于宽表的多扩展表数据存储机制,并且在此基础上提出一种通用的多租户数据存储模式的数据查询效率评估方法,以此评估多扩展表数据存储模式与其他存储模式的数据查询效率。本文的主要工作如下:(1)提出多扩展表数据存储结构。在宽表数据存储模式的基础之上加以改进,采用基本表与扩展表结合方式代替原有的单一宽表解决多租户数据存储问题。扩展表采用多个列数不同的表满足租户不同的定制需求,将租户的定制数据分配到合适的扩展表中,以最大限度的减少空值,提高数据存储的空间利用率。通过计算数据稀疏度,该模式有效的降低了数据的稀疏性。(2)提出多扩展表方法中的模式映射机制。该机制包括基于业务数据的正态分布多扩展表划分方法和基于预留列的多扩展表选择方法,对多租户的数据进行合理的存储,以及租户逻辑数据到物理存储位置的映射。(3)提出一种基于关系代数的多租户存储模式查询性能评估方法。通过建立租户私有表数据与物理存储数据的SQL定义,将SQL转换为关系代数,利用关系代数估计查询操作的I/O代价。将多租户存储模式的查询性能转化为I/O查询代价的比较,从而评估多租户数据存储模式的查询性能。该方法将多租户数据模式的查询性能评估从实验设计和硬件环境中分离,从本质上比较存储模式的优劣。实验表明,该方法虽然不能精确计算数据模式的查询成本,但是对于数据模式之间的查询性能对比有着显著的效果。
其他文献
强化学习是一类无需先验知识的机器学习方法,以Agent与环境不断的交互为主要特征,以寻找能带来最大期望累积折扣奖赏的策略为目标。强化学习中环境可能具有大状态空间甚至连续
高维多目标优化问题是现实社会中普遍存在的一种实际优化问题。相对于普通两到三个目标的多目标优化问题,高维多目标优化问题的最明显特征是目标个数较多,一般大于三个。而且,随
学术影响力评估是指针对文献、学者、期刊和科研机构等评估对象,评估其在学术领域的影响。学术影响力评估可以分类为以下四类问题:(1)文献价值评估问题及预测问题;(2)作者影响
基因转录调控是整个基因表达调控体系的一个重要方面,是基因遗传信息传递和表达的枢纽,也是基因表达调控机制发挥作用的重要环节。识别转录因子结合位点是理解基因转录调控机
学位
异构无线网络融合是未来网络的一个重要发展趋势。在异构无线网络环境下,用户可以充分利用不同无线网络的技术优势,获得"Always Best Connection, ABC"。但是这些不同类型无
双层规划是一类具有两层递阶结构的系统优化问题,在数学规划领域得到蓬勃发展,成为运筹学一个分支,目前已成功应用于诸多领域中,如经济学、管理学、金融学、工程应用等。同时
时间序列数据广泛地存在于生产生活的各个方面,其反映了事物不易直接观察的内部状态。与传统分类有所不同,时间序列分类过程中各个属性之间都是有次序关系的,因此时间序列分类问
当前信息时代,伴随着信息的极大丰富,人们如何有效选择信息成为急需解决的问题。在这样的背景下,推荐系统因其高效性和智能性,而倍受学术界和工业界关注。传统的推荐算法虽然有不
聚类分析是一种非监督的机器学习方法。在数据集分布情况未知时,通常分析员会寻找一种合适的聚类算法将数据集人为地划分成若干类,从而揭示这些数据的真实分布。聚类分析是多元