论文部分内容阅读
随着数据的价值受到越来越多的关注,数据市场也逐渐被更多的用户接受。数据市场运用数据即服务(Data-as-a-Service,Daa S)的新型云服务模式,用户不需要考虑系统资源配置和数据来源,只需要在数据市场中找到并订阅所感兴趣的数据。然后就可从中查询到相应的信息,服务提供商需要提供相应的硬件资源和软件服务来维持和保证租户的服务请求。为了节约成本,他们需要提高资源复用率,让有限的资源能同时为更多用户提供服务,在资源复用的同时可能会降低对一些租户服务的质量。为了确保数据市场中的服务质量,每个租户都会与数据服务提供商签订服务水平协议(Service Level-Agreement,SLA),在SLA中规定付费方式以及相应的服务价格模型。数据服务提供商要想从自己提供的服务中获得收益,必须能使租户最终得到的服务质量能满足协议标准,否则会受到相应的违约处罚。如何有效地进行服务优化,提高系统资源利用率和租户查询处理效率从而最大化平台收益,已经成为服务提供商关注的重点问题。服务提供商希望用较少的成本尽可能满足所有租户的服务要求,当总资源被多个租户共享时,一个租户对资源占用就会导致其他租户的服务受到影响,收益也因此受到影响。本文以服务提供商收益最大化为准则,综合租户需求各异性特点,对多租户负载集成和查询调度两方面问题展开研究与讨论,主要工作和贡献包括:1.针对现有Daa S价格模型的不足,提出了一个更符合服务商利益和租户需求的价格模型。新的价格模型下,根据“单位数据量需要的查询时间”收费。服务提供商想要获得最大收益,则需要综合考虑租户查询执行的时间与租户订阅数据集的大小,这不但关系到查询执行的速度,同时也关系到查询关联的数据集对系统资源的占用。对于租户,新的价格模型有助于了解所订阅服务的质量,知道自己提交查询的相对处理速度。2.设计了基于动态规划的负载集成机制。在数据即服务中,所有的负载“抢占”一份系统资源,因此可以通过对租户负载进行高效集成的方式提高系统资源复用率。本文结合价格模型,根据已有的租户行为及负载的历史分析成果,考虑利用不同数据库引擎对于相同负载执行性能的差异。通过动态规划的思想,找出对于系统收益而言,“性价比”最高的负载集合,将这部分负载集成到内存数据库,其余负载集成到磁盘数据库。内存引擎对于租户负载的处理效率高于磁盘引擎,同等情况能为系统带来更多的收益,因此需要提高负载在内存引擎中的集成度。3.设计了基于滑动窗口的查询调度机制。服务过程中,查询排队等待系统执行时,需要对排队的作业负载进行合理地调度。一方面可以提高资源的利用率,让有限的资源服务更多的租户。另一方面,减少查询的等待时间,提高服务提供商的收益。本文基于滑动窗口的策略,对滑动窗口内的排队请求进行充分考虑,基于可能的预期收益情况,制定一个调度序列,在保证系统收益同时使得租户查询尽可能少得延迟。4.利用以上提出的两种机制,结合提出的价格模型,构建一个Daa S查询负载处理系统原型。同时,利用TPC-H与TPC-DS基准测试数据集,对相关方法的有效性进行了测试与衡量。综上所述,本文研究了数据市场模式中多租户服务问题,研究了多租户负载集成和查询调度技术。通过动态规划思想的负载集成机制和基于滑动窗口的查询调度机制使得多租户服务性能得到改善,服务提供商收益得到提升。并提供相应数据集进行测试,验证了本文提出的方法在应用中能取得良好的效果。