基于“YHFT-XDSP”XMC接口的预取结构的设计与实现

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:tomato20099002
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,DSP应用领域日益广泛,性能也不断提升,但处理器和访存系统的性能差距却越发明显,“存储墙”问题成为制约DSP性能进一步提升的瓶颈。多层次存储结构能有效改善“存储墙”问题,其中“两级Cache+RAM”存储结构是当前的主流形式之一,然而,Cache失效引起的访存等待又严重影响了处理器执行效率。研究表明,预取技术可以明显减少Cache失效率或失效代价,国内外的相关研究也不断推陈出新,但至今仍没有得到广泛认可的高性能预取结构问世,其主要原因便是成本和效率的均衡。因此,如何设计一种工程上易实现的有效的预取结构,是当前DSP设计中一个被不断探讨的热门问题。“YHFT-XDSP”是国防科技大学在研的一款高性能多核32位DSP,其主频可达1GHz。采用“两级Cache+RAM”存储结构,用户可以灵活地配置每一级Cache与RAM的比例。内核与外部接口包括扩展存储控制器(XMC)和外部存储控制器(ERI),其中,XMC是二级存储器(L2)到外部公共存储控制器(PMC)的主要存储访问通路,此外,XMC还负责完成地址位扩展并提供存储保护机制。本文基于“YHFT-XDSP”的XMC接口特点,围绕预取结构的设计进行研究,主要完成以下几方面工作:首先,根据Cahce失效行为的特点,结合“YHFT-XDSP”的四种L2失效请求模式,设计了附加数据过滤层的分离式预取机制。该预取策略为失效率较高、空间局部性差异较大的数据Cahce失效设计了数据过滤层,以过滤空间局部性不好情况下的无效预取,增强了预取的准确率。此外,该策略还针对四种L2失效请求模式,设计了预取辅助失效读功能,提高了访存带宽的利用率。其次,基于“YHFT-XDSP”的XMC接口实现了可流水化的预取结构,以及它与XMC接口配合工作的控制逻辑。当L2失效请求到达XMC接口时,如果失效请求命中预取结构,则直接从预取缓存中读取数据,失效代价明显减小。由于接口级硬件的速度要求低于缓存级,因此,相比于基于Cache的预取结构设计,基于XMC接口的设计保证了其实现的较低成本和设计的可扩展性。最后,综合应用模拟验证和FPGA仿真验证的方法,对上述实现的预取结构的功能和性能进行了验证和分析,并对预取结构的RLT级代码进行了综合优化。实验结果表明,预取结构能减少几类典型测试用例FPGA仿真执行时间最高达9%,有效提升处理器访存性能。
其他文献
嵌入式系统的研究开发已经随着信息技术的飞速发展逐渐成为当今科技的一大热点,而Linux又以其独特的优势成为嵌入式操作系统的主流。开发嵌入式Linux系统,研究工作集中于软件和
自适应波束形成技术是一种空域的自适应滤波技术,作为阵列信号处理的一个重要的研究方向,自适应波束形成技术经过几十年的发展,其基本理论与算法已经相当成熟,但在其工程化实现的
初产母猪断奶后能否正常发情对养猪生产影响重大,也是初产母猪被淘汰的主要原因.本研究以乏情和发情初产母猪为研究对象,首次利用RNA-seq技术对其下丘脑-垂体-卵巢轴中的基因
全数字闭环光纤陀螺具有线性的标度因子、相位检测精度高、动态范围大等优点。闭环方法允许用不完美的元件创造出性能优越的光纤陀螺。从性能、实现简易性等方面来看,全数字闭
近年来的网络业务流特性研究表明,多种不同类型的网络业务流不仅具有短相关特性,还呈现长相关特性或自相似性。正是这种长相关性给业务流的长期预测提供了可能性。本文阐述了