论文部分内容阅读
离散傅里叶变换(DFT)将一个数据序列从离散时间域映射到频率域,可以更简单地实现对离散时间信号的处理。但长序列的DFT运算复杂度为O(N2),计算量比较大,直接进行DFT运算难以实际应用。上个世纪六十年代中期,Cooley和Tokey首先提出了实现DFT高效运算的快速傅里叶变换(FFT),从此FFT在卷积/相关、滤波、频谱分析等各类信号处理系统中得到了广泛的应用,FFT成为数字信号处理中的核心算法。随着无线通信等各类应用对FFT算法性能需求的不断提高,深入研究各类改进的FFT算法,并采用软件、硬件等方法实现FFT的算法加速具有重要意义。设计并行存储系统以支持FFT并行访存是实现算法加速的一种重要方法。本论文以FFT算法原理的硬件实现为基础,针对面向FFT算法的并行存储结构优化展开研究与设计。论文分析了常用的基2和基4 FFT算法原理及其并行存储结构,并对广泛用于实时性和吞吐率要求高的应用领域的基16 FFT算法展开研究。提出了一种有效的、硬件开销小的访存地址转换方法,可更高效地支持其访存系统并行访问,获得更高的性能。最后将其应用于自主研制的某款数字信号处理器FT-XDSP向量阵列存储的优化设计中,提高了向量访存的带宽效率。具体的研究内容如下:1、深入分析基2、基4 FFT算法所需操作数的访存规律,针对FFT运算中每一级的并行访存地址进行分析,提出了更为简单的支持算法并行的存储结构。降低了硬件复杂度,并且使程序员更好地理解并行访存系统,更易于编程。2、深入分析了变形基16 FFT算法能够提高吞吐率的原因,详细分析了WPAN标准下采用的512点数据序列在FFT运算的每一级地址访问规律。并据此设计出了一种开销低、性能更好的地址转换方法,并进行了结果分析;3、针对自主研制的某款高性能数字信号处理器芯片FT-XDSP的向量阵列存储进行研究,证明了基于FT-XDSP体系结构,针对基2 FFT算法进行的访存优化同时适用于基4 FFT算法。并基于其SIMD架构向量阵列存储提出了一种优化的地址转换方法,减少了FFT运算的并行访存冲突次数。实验表明,本文中提出的针对基2、基4 FFT算法的地址转换方法硬件电路需要的面积比其他方法要小;针对变形基16 FFT算法的地址转换方法硬件电路面积相对其他方法节约了47%左右,功耗节约了24%左右。最后对FT-XDSP向量存储器进行优化后,常规FFT程序可以100%消除访存冲突,流水FFT程序可以消除26%~88.4%的访存冲突。