论文部分内容阅读
超级计算作为科学研究的重要手段,对现代科学的发展具有重大推动作用。长期以来,国内外都将研制和应用最高性能的超级计算机系统作为保持其科技领先优势的国家战略。作为下一代计算范式,云计算在学术界被深入地研究并在产业界进行了广泛地部署,使得云计算服务模式得到了极大的推广。研究使用云计算的模式来提供超算服务,是提高现有超算资源利用率并满足复杂QoS需求高性能应用的一条高效途径。然而,云计算广泛采用虚拟化技术实现资源隔离,多种应用被整合到同一台物理机上导致应用之间性能相互干扰。目前,学术界对云平台下超算应用间的干扰机理分析还不完善,干扰的度量和预测还没有精确的模型。针对这些问题,本文设计了一个面向超算云平台的性能干扰框架,提出了一种面向超算云平台的多参数指数干扰预测模型,并进行了详细地实验和评测。主要完成了以下三方面的工作:1、设计了一种干扰感知超算云平台系统框架,以解决由于负载整合和资源共享带来的性能干扰而引起服务质量无法保证的问题。采用分层设计思想设计了一种干扰感知的四层框架,包括应用层、代理层、调度层、物理层。并针对四层中对性能干扰的因素进行了详尽的分析。2、提出了一种面向CPU密集型应用的性能干扰预测模型。超算云平台中大多数应用为CPU密集型应用,由于CPU资源竞争产生干扰而导致的性能下降,已有的性能预测模型不能很好地进行预测。本文针对CPU密集型应用特点、虚拟化技术等方面对超算云平台中CPU密集型应用性能干扰机理进行了详细地分析。基于该分析提出了一种多参数指数干扰MVEI模型,该模型采用了应用特征、物理主机资源利用率以及物理主机上已经部署虚拟机资源使用情况作为模型的参数,最终确定了预测模型。3、预测模型验证与评估。选取典型的CPU密集型应用测试基准,对模型进行评估,并对模型的参数进行验证。利用该模型对超算云平台进行测试,实验结果表明,与线性与二次模型进行比较显示本文提出的模型具有更高的精确度。为了进一步验证模型对更加复杂场景的预测效果,本文还选取了一些通用负载对模型进行评估,实验结果表明,除了已考虑的因素外,进程切换、I/O调度算法、内存管理等因素也不同程度对性能干扰产生影响。