论文部分内容阅读
随着人们对系统性能需求和技术水平的不断提高,芯片上集成了越来越多的部件和模块,近年来技术的进步已经使得处理器核的速度和性能都得到了较大的提升,因此片上系统的设计已逐步转为如何设计有效的片上通信方式,以实现整个片上系统性能的进一步优化。从而片上网络应运而生,基于在并行计算机中广泛应用的互联网络的原理,以分布式的模型通过配置若干的路由器实现通信控制,采用消息传递模型,连接在网络中的处理器核通过路由器发送或接收消息,提供了更加标准的接口以便于网络结构的扩展及模块复用,大幅提升了整体性能。虽然片上网络解决了传统总线结构通信效率低、设计复杂等问题,但是它所消耗的功耗与网络延迟仍然不容忽视,如MIT研究开发的著名的Raw芯片中,网络功耗约占36%,在Intel的Tera-Scale芯片中,这一比例达到40%。因此片上网络功耗的进一步优化设计已经成为片上网络结构设计的重要问题,如何实现片上网络的低功耗,已经成为工业界和学术界越来越关心的关键问题。同时,延时也是网络优化设计的重要参数,随着制造工艺的发展,处理器核的处理速度越来越快,核间通信的速度将会很大程度地影响系统的性能。片上网络系统功耗受到多种因素的影响,其中片上拓扑结构的设计、高效的路由算法、映射算法是设计低功耗片上网络需要考虑的重要方面。当前网格(Mesh)结构是片上网络拓扑设计的主要结构,但随着核数的增多,Mesh结构的直径大、带宽受限、功耗高等问题会越来越明显。与Mesh相比,Mesh-of-Tree结构拥有较小的直径和较低的节点度,是一种更加节约片上资源和功耗的结构。但是Mesh-of-Tree结构中的一些上层路由器承担着较重的通信任务,这意味着这些路由器会消耗更多的功耗并容易发生阻塞。片上网络节点间的通信距离也会很大程度地影响系统的功耗和延迟,因此设计的重点还包括如何设计有效的映射算法,使得通信较频繁的节点间通信距离较小。但是,已有的应用程序映射算法生成的映射方案并不十分理想,这主要是由于映射问题是一个NP范畴的问题,在不穷举所有方案的情况下如何高效快速的得到接近理想的映射结果是考验算法性能的重要方面。而且算法中参数的选择对于算法执行的效率和最终生成的映射结果有很大的影响,若选取不当,很可能陷入局部最优,从而降低功耗的效果就受到影响。针对以上问题,提出了一种简化的Mesh-of-Tree拓扑结构,旨在缓解拥塞现象、节约片上资源和系统功耗。并基于简化的Mesh-of-Tree结构,设计了一种考虑网络负载和核间通信最短路径的路由算法,在保证性能的同时,平衡网络负载,降低拥塞,从而降低系统的延迟和功耗。同时,基于传统的应用程序映射算法中存在的容易早熟、可选解有限等缺陷,提出了一种考虑早熟、增大问题解空间的映射算法,在算法产生早熟现象时,采用一定的跳出策略以避免局部性,并重新生成问题的解空间。为了准确地衡量方案的性能和效率,采用Gem5全系统模拟器平台,并用PARSEC测试程序验证。实验结果表明,设计的路由算法与传统的静态路由算法相比,功耗降低了5.39%-23.3%的同时网络延迟降低了4.23%-17.28%。设计的低功耗映射算法与传统的随机映射算法相比,功耗降低了4.5%-28.9%,并且网络延迟降低了9.9%-21%。