论文部分内容阅读
面向能耗优化的面积、功耗、带宽分配问题是处理器在未来发展中能否解决“暗硅”(Dark Silicon)问题、延续摩尔定律的关键所在。目前大规模并行负载在多核处理器上的并行开销和访存开销各不相同,即使在相同结构处理器上执行不同负载所得的能耗和性能也千差万别。因此面向能耗优化的处理器面积、功耗、带宽分配已经不再是一个单纯的硬件优化问题,引入负载性能与面积、功耗、带宽分配关系是准确评价处理器能耗-性能并进一步优化能耗的重要因素,无论对以TDP(Thermal Design Power)为目标的处理器设计还是对现有处理器运行时的能耗优化都有重要意义。本文通过研究核数、频率、并行开销、访存开销、带宽划分等因素对能耗的影响从而提出面向能耗优化的多核处理器系统资源分配方法;针对同构处理器建立一种基于DVFCS(DynamicVoltage/Frequency/Core Scaling,动态电压/频率/核数缩放)技术的能耗-性能模型,并从模型和实际执行两个方面提出了最优能耗所用核数和频率的搜索方法;针对异构处理器提出一种引入访存排队延迟的性能-能效模型,并分析得出面向性能和能效优化的带宽分配比例。本文的主要创新点及贡献包括: 一种基于DVFCS技术的处理器能耗-性能建模方法。针对处理器能耗-性能相互制约关系,提出了一种能够准确表述漏电功耗、并行开销、访存开销随频率、节点数变化特性的能耗性能模型,该模型能分别在能耗和性能中分离出与频率、核数相关和无关的组成部分,更精确的探讨核数、频率对能耗-性能权衡关系的影响;并在基于GEMS+Simcs+Orion2.0的模拟测试平台上使用8个PARSEC2.1并行程序对该模型及现有集中能耗-性能模型进行了评估,实验结果表明,本文提出的建模方法最大能耗误差为8.4%,平均性能误差为14%,均低于现有的系统级能耗-性能模型,该模型能精确表述并行负载的能耗-性能在核数-频率空间的分布情况。 一种基于LM+PO+MO模型的多核处理器能耗-性能优化方法。通过使用本文提出的模型分析并行负载能耗-性能在核数-频率空间的分布特点,我们提出了一种基于能耗-性能模型来预测搜索最优能耗和性能所用核数和频率的执行方法。在模拟测试平台上对该方法进行评估,结果显示在“高”“中”“低”三种性能约束下执行本文所建模型计算得到的最优配置均可以得到最接近最低能耗的实测结果,并且本文所提模型对最低能耗所用核数的预测失误次数少于其他建模方法;而本文所提模型对能耗约束下最优性能所用核数的预测则全部正确。实验证明本文模型相比现有的系统级能耗-性能模型在搜索能耗和性能最优解方面有更高的准确度。 一种基于可行方向法的最低能耗搜索方法。针对现有方法在核数-频率空间内实测搜索最低能耗时收敛速度慢、搜索开销大等问题,我们提出了一种基于可行方向法的核数-频率搜索方法,每次执行都能从核数和频率两个维度上同时减小搜索空间,在迭代执行中快速收敛至最低能耗点。实验结果表明,与现有研究中使用的启发式爬山法相比,平均执行次数、执行时间和能耗分别降低39.5%,46.8%,48.3%;当核数增加一倍时平均执行次数、执行时间和能耗分别降低48.8%,51.6%,50.9%;当频率级数增加一倍时平均执行次数、执行时间和能耗分别降低45.5%,49.8%,54.4%,表现出更好的可扩展性。 一种面向能效优化的异构处理器带宽分配方法。通过建立引入排队延迟的异构处理器能耗-性能模型,分析片外访存带宽资源分配对总吞吐率和能效的影响。首先,我们发现带宽划分能够改进性能和能效是由于不同结构的处理器核对于由带宽争用所导致的排队延迟的敏感性不同,访存排队延迟较大的处理器核心从带宽划分得到性能收益更高;其次,异构多核结构从带宽划分中得到的性能增益幅度取决于cache失配率之比和可用峰值带宽,主协处理器cache失配率差别越大,可用峰值带宽越紧张,带宽划分带来的性能增益越大,而能否从带宽划分中得到性能增益只取决于主协处理器的cache失配率之比;第三,异构多核结构能否从带宽划分中得到能效增益取决于cache失配率之比和可用峰值带宽,并且其能效增益的幅度也取决于这两个因素,主协处理器cache失配率差别越大,可用峰值带宽越紧张,带宽划分带来的能效收益越大;最后,最优性能和最优能效的带宽划分可以采用cache失配率之比和可用峰值带宽来描述从而获得其解析解,并且相比自然划分能够得到一定的性能-能效收益。