论文部分内容阅读
进入二十一世纪以来,多核处理器的设计发展迈向了两种不同的方向:一种是保持应用总体按序执行的CPU,另一种则是更适用于并行计算的GPU。GPU自诞生伊始便在浮点计算性能上超越了CPU,GPU并行执行与CPU顺序执行性能之间巨大的鸿沟使得大量的程序开发人员将程序中计算密集型的部分交付给GPU进行计算。计算机体系结构已经从传统的多核CPU-like时代跨越到多核GPU-like和GPU-CPU异构时代。而当前设计的处理器芯片大都通过片上网络来访问共享资源,因此片上网络的配置对其性能和功耗有着重要影响。近期提出的异构片上网络不仅其性能进一步接近于传统的有缓冲区片上网络,而且其面积开销和功耗也明显下降。然而,面向GPU-like架构和GPU-CPU异构体系结构的异构片上网络设计目前尚未深入研究。GPU-like架构和GPU-CPU架构芯片为片上网络的设计提出了新的挑战。其一,Dennard定律的终结引发了处理器多核时代的暗硅问题,芯片的功耗限制使芯片上的晶体管点亮的数目达到了极限,导致处理器核心仅能在较短的时间里全部激活,大部分时间内,一些处理器核心区域无法激活,处于黑暗状态。而片上网络功耗在芯片整体功耗中比重很高,这驱使我们尽量降低片上网络的功耗,为核心保留更多的功耗预算。其二,与CPU相比,GPU线程数量更多,并行度高,这种特性使得GPU与末级高速缓冲存储器和存储控制器间的指令与数据交换更加频繁。基于CPU多核处理器的片上网络上的交通比较平均,而基于整合了GPU和CPU异构芯片的片上网络上的交通热点相对更集中,GPU迥异于CPU的特性改变了片上网络中的交通特征。如何使异构片上网络得以适应新型的GPU-like和GPU-CPU架构是当前亟待解决的问题。为此,本文首先针对芯片的暗硅问题,基于GPU-like芯片按照GPGPU负载对暗硅的适应程度将其分为暗硅敏感型、暗硅迟钝型和暗硅适应型三类。通过分析不同放置方式的异构片上网络对负载性能和片上网络功耗的影响,来探究异构片上网络对GPU-like芯片暗硅程度的影响。实验结果显示,相比于传统的有缓冲区片上网络,异构片上网络可以有效降低GPU-like芯片的暗硅程度,使芯片至少可以在额定功耗预算下多激活一个处理器核心。对于暗硅敏感型负载,在额定功耗预算下,使用异构片上网络至少提升了10%的性能,为额定功耗预算下片上网络类型的选择提供了参考。其次,基于GPU-CPU架构芯片,通过调整有缓冲区和无缓冲区路由器的放置方式,对多种基于"热土豆"路由的静态异构片上网络的性能和功耗进行了评估,实验结果对于进一步探索片上互联的设计空间是大有裨益的。最后,本文提出一种面向异构片上网络的基于信用的单向流控机制(UFC)来控制网络拥塞,从而保证有缓冲区路由器始终有空闲的缓冲区保存来自于相邻无缓冲区路由器的分片。实验结果显示,相比于"热土豆"路由,UFC可以将异构片上网络的性能平均提升14.1%,而网络的功耗平均提升仅有5.3%。