论文部分内容阅读
过去几十年来,代表CPU性能的主频在不断的提高,但由于生产工艺、功耗以及架构设计等原因使得主频之路已经走到了尽头。在无法进一步提高处理器主频的情况下,CPU进入了多核时代。对于计算密集型的应用,由若干个完全相同处理器核心构成的同构多核CPU并不是最好的方案。因此,出现了以通用CPU加专用加速核心构成的异构计算平台,并且逐渐成为高性能计算领域的主流架构。这种底层硬件架构的革新也给在它上面的程序开发带来重大改变。而目前的异构多核平台都面临着性能调优困难和编程复杂的问题。如何简化编程,如何充分发挥异构多核平台的性能是程序开发方面不得不面临的挑战。在异构多核计算平台上,专用加速核心是提供计算能力的主要部件,如何挖掘加速核心的处理能力是影响整体性能的关键。本研究提出了基于异构多核平台的多粒度并行优化策略,基于该模型实现的应用能最大限度地使用专用加速核心硬件计算资源,由此,总结出在异构多核平台上的专用加速核心端进行性能调优的一般规律。现代异构计算平台的异构多核架构中,加速核心通常用于计算,但平台上的多核CPU的计算能力同样很强大。为了利用CPU的计算能力,针对数据并行应用,提出了异构数据并行模型,该异构数据并行模型通过对CPU和加速核心间负载的合理划分,使得CPU和专用计算核心间的负载达到均衡。在利用专用加速核心计算能力的同时,充分发挥多核CPU的计算能力,从而提高系统整体的性能。同样是为了利用多核CPU的计算性能,对于一些流式数据并行计算的应用,提出了流式计算模型,该模型是由CPU、加速核心以及它们之间的数据通信组成一条三阶段的流水线。CPU端对输入数据进行初步处理,过滤掉部分无需APU处理的数据,这样做一方面减少了CPU与加速核心之间的巨大的通信延迟;另一方面也降低专用加速核心的负载。通过调整CPU端的过滤的精度来协调CPU和专用加速核心之间的负载,使流水线处于充盈状态,以达到整体的性能最优。在异构多核计算平台中,由于CPU和加速核心在存储系统上具有不同的特点并具有各自独立的地址空间,导致CPU和加速核心之间的数据传输是消息驱动的传输方式。在进行应用开发时,CPU和加速核心之间数据传输需要程序员显式调用API来进行,增加了编程的复杂性,加重了程序员的负担。通过在NVIDIA GPU平台上基于CUDA编程环境设计并实现了memCUDA原型系统,memCUDA通过扩展CUDA的关键字,利用源到源的代码转换,实现了设备内存到主内存的映射,从而屏蔽掉数据传输和设备内存的操作,简化编程。同时,通过优化异步执行的方式,对符合条件的应用能达到提高性能的目的。