论文部分内容阅读
在计算机体系结构中,处理器存取速度一直比主存存储器快的多,使处理器的高速处理能力不能充分发挥,整个系统的工作效率受到影响,因此需要设计高速缓冲存储器(Cache)以解决速度匹配的问题。Cache中的SRAM读取速度一般要比主存储器(DRAM)快3~4倍。根据时间局部性和空间局部性原理,Cache可以极大地提高处理器的效率。本文的主要工作是设计应用于32位并行处理器EPIP中的多线程非阻塞指令Cache。首先分析了多线程非阻塞Cache的处理器需求,然后提出其时序要求和一种实现方案,利用SystemVerilog对该方案进行RTL级建模并使用OVM库建立验证环境进行性能评估。为了实现高性能的设计要求,优化了多种设计结构。使用Cache缓冲表和线程请求顺序表两种硬件结构满足非阻塞和多线程返回数据顺序的要求;为了提高Cache的命中率,采用多路组相联映像方式;在替换策略上,采用LRU(LeastRecently Used),最近最少使用算法;为了提高虚拟地址向物理地址转换的效率,增加了地址查找缓冲结构;支持高速缓存的撤销请求,当对应线程撤销请求有效时,高速缓存停止发送撤销信号有效前所有数据;为更好利用程序的空间局部性原理,提高高速缓存的命中率,增加外部数据请求的预取。通过验证比较,设计的指令Cache支持最大阻塞长度为8个数据请求,最短返回周期为5个时钟周期,内含32KB的SRAM,使用SMIC0.18um工艺综合后的最大工作时钟频率为250MHz,等效逻辑门300K,核心工功耗约92mW,芯片面积为3mm2,可满足大多数支持多线程和超前执行处理器的需求。