高速高精度矩阵运算器的设计与实现

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:hahahaha8
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,人工智能、云计算等新兴技术被广泛使用,现代数字信号处理系统需要实时处理高维度、高精度以及高带宽的复杂信号。矩阵运算作为信号处理系统的重要基础运算,有着广泛的应用。其中矩阵求逆是最复杂也是应用最广的运算之一,受到国内外学者重点关注,提出了大量有效的矩阵求逆算法,并通过不同的硬件平台进行了验证与实现。矩阵求逆的运算量随矩阵规模的增大呈指数增大,而硬件实现的资源有限。故常见的矩阵求逆多以特殊矩阵或者小规模矩阵为对象,用于大规模任意矩阵求逆的方法及其硬件实现的研究较为少见。在当今时代背景下,大规模非奇异矩阵求逆是数字信号处理中极具挑战且不可避免的课题之一,具有重要的现实意义与工程价值。针对上述问题,本文对矩阵求逆算法以及其硬件架构设计进行了深入研究。主要内容如下:(1)分析研究矩阵求逆的各类算法,根据数值稳定性、运算复杂度以及硬件实现难度等因素,选定基于Givens-QR分解的矩阵求逆算法。然后,根据算法的运行特性,设计了基于原位替换的混合粒度并行Givens-QR分解算法和上三角矩阵求逆的分块递归算法,充分挖掘算法的运算并行度。(2)根据优化的求逆算法,设计了以矩阵求逆为核心的矩阵运算硬件加速器。论文在二维脉动阵列结构的基础上设计了一种一维线性流水结构,有效压缩运算资源。运算器可以直接加速2-32阶双精度浮点矩阵求逆,兼容了线性矩阵运算、矩阵阵乘以及矩阵转置操作。(3)完成矩阵运算器的全部前后端设计工作,并在Xilinx XC7V2000T型FPGA平台上搭建验证环境并完成验证。结果表明,本文设计的矩阵运算器在TSMC28nm工艺下,工作主频700MHz,芯片面积为2.25mm2,能够完成全部预定矩阵运算功能,其中32阶双精度浮点矩阵求逆耗时14910个周期内,计算精度达到10-15,其速度是NVIDIA RTX2070 GPU的140倍。
其他文献
为研究绿茶栗香形成的干燥工艺及机理,笔者综述了近30年来国内外的香气及栗香相关研究,发现香气的研究较多而栗香的研究却少有提及。栗香香型虽已做出细分并探究出其关键组分
教育部考试中心任子朝先生在《新高考数学学科考核目标与考查要求研究》中提出"高考数学学科在考查过程中要体现基础性、综合性、应用性和创新性的考查要求".2019年高考全国
随着在线广告不断的发展,计算广告成为了一门新兴的重要学科。在计算广告的投放系统中,广告点击率预测算法是重要的一环,提升广告点击预测准确率对提升广告投放系统收益有至关重要的作用。广告点击率预测问题中的难点在于其特征多为离散特征并且特征稀疏性高。传统的机器学习分类算法比如逻辑回归在解决这列问题时需要大量的特征工程,因子分解机模型可以学习二阶交叉特征,深度学习擅长隐含地学习交叉特征。有一些深度学习和因子
通过对癫痫患儿及其家属开展多种形式的健康教育指导,总结针对癫痫患儿的健康教育方法,引导癫痫患儿接受系统有效的正规治疗,从而使癫痫发作得到控制,减少复发,提高就诊、复
空气质量预报模型是进行空气污染预报和建立污染减排措施的重要方法。随着空气质量预报模型的发展,其类型和数量日益丰富,应用需求也越来越广泛。然而,不同模型在机理、适用
嫩江上游水系发达,生物资源丰富,森林覆盖率41.53%。改革开放以来,随着嫩江上游旅游业的兴起,城市规模不断扩大,建设用地供求关系日趋严峻,导致生态系统破坏严重,经济发展和
洗涤红细胞(WRC),是在制备过程中去除98%的血浆蛋白和80%以上的白细胞以及大部分的血小板的红细胞制品。临床主要用于对供者血浆蛋白过敏或因较长时间反复输血而出现输血反应
如今,镁合金在各行各业已经得到了广泛的应用。但是,硬度低、耐磨性差及耐蚀性差等问题也限制了镁合金在一些领域的使用。表面涂层可以在不改变镁合金固有性能的前提下,有效
学位
近十年来,关于采购外包策略的研究一直是国际前沿热点,背后的原因是采购在供应链中的地位变得越来越敏感而且重要。采购外包既是成本问题,又是供应链决策话语权转移和结构重