论文部分内容阅读
随着大数据时代的到来,人工智能、云计算等新兴技术被广泛使用,现代数字信号处理系统需要实时处理高维度、高精度以及高带宽的复杂信号。矩阵运算作为信号处理系统的重要基础运算,有着广泛的应用。其中矩阵求逆是最复杂也是应用最广的运算之一,受到国内外学者重点关注,提出了大量有效的矩阵求逆算法,并通过不同的硬件平台进行了验证与实现。矩阵求逆的运算量随矩阵规模的增大呈指数增大,而硬件实现的资源有限。故常见的矩阵求逆多以特殊矩阵或者小规模矩阵为对象,用于大规模任意矩阵求逆的方法及其硬件实现的研究较为少见。在当今时代背景下,大规模非奇异矩阵求逆是数字信号处理中极具挑战且不可避免的课题之一,具有重要的现实意义与工程价值。针对上述问题,本文对矩阵求逆算法以及其硬件架构设计进行了深入研究。主要内容如下:(1)分析研究矩阵求逆的各类算法,根据数值稳定性、运算复杂度以及硬件实现难度等因素,选定基于Givens-QR分解的矩阵求逆算法。然后,根据算法的运行特性,设计了基于原位替换的混合粒度并行Givens-QR分解算法和上三角矩阵求逆的分块递归算法,充分挖掘算法的运算并行度。(2)根据优化的求逆算法,设计了以矩阵求逆为核心的矩阵运算硬件加速器。论文在二维脉动阵列结构的基础上设计了一种一维线性流水结构,有效压缩运算资源。运算器可以直接加速2-32阶双精度浮点矩阵求逆,兼容了线性矩阵运算、矩阵阵乘以及矩阵转置操作。(3)完成矩阵运算器的全部前后端设计工作,并在Xilinx XC7V2000T型FPGA平台上搭建验证环境并完成验证。结果表明,本文设计的矩阵运算器在TSMC28nm工艺下,工作主频700MHz,芯片面积为2.25mm2,能够完成全部预定矩阵运算功能,其中32阶双精度浮点矩阵求逆耗时14910个周期内,计算精度达到10-15,其速度是NVIDIA RTX2070 GPU的140倍。