论文部分内容阅读
随着流应用的逐渐普及和VLSI技术的不断发展,传统高性能处理器体系结构的开发面临很多挑战。流体系结构是近年来出现的一种面向流应用的高性能处理器体系结构。流体系结构能充分开发流应用中数据的并行性和局部性,实现对流应用的高性能支持。流体系结构普遍采用由软件管理的流存储系统。流存储系统在面向流应用时显现出比传统存储系统更多的优势,但国际上对流存储系统的研究并不深入。如何深入分析流应用的存储访问特点、结合传统存储系统的研究成果,研究出高效支持流应用的存储访问机制,是流体系结构研究中的一个重要方向。因此本文以流体系结构中的流存储系统为目标展开了一系列的研究。本文深入地分析了国内外新型体系结构中存储系统的研究和实现现状,提出了一种流存储系统的设计思想在FT64处理器中进行了设计实现,并根据流应用的存储访问特点,以FT64处理器的结构为基础,有针对性地研究了流存储系统的性能优化技术。本文的工作与创新点主要体现在以下几个方面:1.分析了国内外新型处理器体系结构中存储系统的研究现状,重点研究了硬件管理的传统Cache存储系统和软件管理的流存储系统的结构和访问特点,比较了它们在带宽需求、延时隐藏、能量效率和软件复杂性等方面的不同。2.面向典型目标应用的访存特性,提出了一种流存储系统的设计思想,并在FT64处理器中进行了实现。FT64处理器存储系统包含三级存储层次,采用存储带宽匹配的设计来提高计算性能、降低访存带宽需求,并直接支持跨步、位反和索引三种访存地址生成模式。3.针对流应用中的数据重用情况,提出了一种面向流数据重用的SDR-Cache结构并采用FMB直写和生存期预测技术进行性能优化。SDR-Cache通过编译指导能捕获原先只能通过访存来实现的流级数据ITR和IPCL重用,FMB直写技术能避免SDR-Cache中填入将被完全修改的Cacheline,生存期预测技术使SDR-Cache中不再使用的数据可以直接作废而不必写回主存,这些技术使多数流应用程序中的访存时间明显减少。4.针对高速芯片设计中大容量片上存储体只能半频访问的现状,提出了一种存储体虚拟全频访问技术。这项技术将单个存储体分成多个由不同相位时钟控制的bank,多个bank以低位地址交叉方式存放访问数据。在FT64处理器中的应用表明,这项技术能使SRF存储体在多数情况下实现全频流水访问,有效提高了实际工作带宽。5.为了提高主存数据总线的有效周期利用率,提出了一种面向流应用的存储调度机制。这种机制针对流数据的组织特点,在读写数据通路上分别使用一个支持流数据存储模式的二维数据缓冲,使一部分流数据访存请求可以进入缓冲并和其后的其他请求进行合并以最大限度地利用主存带宽。6.在对流应用访存特性进行分析的基础上,提出了一种基于流地址分析的DRAM页策略。该策略通过统计等待访存的请求的地址分布情况和分析流数据访存地址变化的规律,预测每个DRAM体未来的访问情况,并据此选择合适的时机对DRAM体进行precharge操作来加快访问速度。实验结果表明,根据本文提出的设计思想和实现方法设计的流存储系统以及在此基础上提出的优化方法能有效地降低数据访存时间,显著地改善系统性能。本文的研究成果为进一步提高流体系结构存储系统的性能提供了理论依据和实践基础。