论文部分内容阅读
近几年片上多核芯片(Chip Multi-Processors,CMPs)逐渐成为了学术界和工业界的研究热点。随着多核芯片核数的扩大,传统的总线互连方式的带宽、频率和功耗问题显得越来越突出。片上大量计算和存储资源的并发工作需要并发流水的通信工作模式而非串行化的通信工作模式。因而,片上网络(Network-on-Chip,NoC)由于良好的可扩展性逐渐成为在单个芯片上连接众多资源的较佳解决方案。同时,随着芯片规模的扩大,集中式的存储组织方式由于访问延迟过大、访存竞争严重和可扩展性差而成为片上系统的性能和功耗瓶颈。而与此对应的是,分布式的存储组织方式具有可扩展性好及访问竞争和延迟均衡的优点[92]。综上所述,片上系统逐渐由基于总线的单核或少量多核结构发展到基于片上网络和分布式共享并行存储的大量多核(众核)结构。在这种情况下非一致性访存结构(Non-Uniform Cache Access,NUCA)成为当前多核芯片设计的主流存储结构显得理所当然。然而随着多核芯片规模的快速增大,多核芯片中不同节点的访存公平性问题日趋严重。为了解决这个棘手的问题,本文从非一致性访存结构的访存公平性入手进行了以下几方面的工作:1)针对当前片上多核芯片中非一致性访存结构特点对芯片上不同节点访存的延迟进行建模。具体来说,本文提出了一个访存延迟估算模型,可对芯片上各个节点的平均访存延迟进行较为准确的估计;2)以分布式共享cache划分的研究问题为目标,以本文所建立的访存延迟模型为依据,用一种创新的片上共享cache划分方法解决非一致性存储结构中日趋严重的访存公平性问题;3)用当前流行的体系结构模拟器实现了本文创新的cache划分结构,进行了全系统模拟。该体系结构的性能分析则依赖几个当前流行的基准测试套件:SPEC CPU2006,PARSEC。实验验证部分从多角度分析了模拟实验的实验数据,对面向访存公平性的cache优化划分结构进行了验证与评估。