论文部分内容阅读
数字信号处理器(Digital Signal Processor,DSP)广泛应用于医疗、通讯和军事等领域,由于其提供的特殊DSP指令,可以用来快速的实现这些领域中数字信号处理。M-DSP是一款自主研发的32位高性能数字信号处理器,目标频率1GHz,采用11发射的可变长指令字结构,最多可以同时并行执行11条指令。本文依托M-DSP内核的研究与设计,设计完成了运算部件中浮点MAC单元,并对其进行了全面的验证与优化,主要工作包括:1、设计了一款具有六级流水线的FMAC乘加结构。以低延迟浮点融合乘加为基础,设计并实现了32位多功能浮点融合乘加运算单元。根据FMAC单元的指令集设计要求,实现了双精度/单精度浮点乘法、双精度/单精度浮点乘加和单精度复数乘法与点积运算共9条指令。结合双通路浮点乘加结构的设计思想,将设计的浮点乘加运算结构划分为6级流水线结构。2、对每条指令的数据通路进行了分析和优化设计。综合考虑面积和时序之间的平衡,对关键模块的复用进行了优化设计。对54×32位的定、浮点共享乘法器进行了优化设计,该乘法器由4个同构的27×16位子乘法器组成,对源操作数例外判断、尾数对阶移位和规格化移位等模块进行了逻辑优化设计。3、对所设计的浮点MAC单元进行了模拟验证。采用模拟验证和形式验证两种验证方法,从不同的验证角度进行了全面的验证。首先建立了具有浮点MAC相同功能的C语言黄金模型,将该模型和其输出结果作为模拟验证的参考模型和标准输出,其次进行了模块级验证、随机数验证、精度验证、流水线验证、全局信号验证和指令组合测试,并对代码进行了覆盖率分析,最后采用静态的验证方法进行了形式验证。验证结果表明,所设计的指令功能正确,各指令的功能点验证时对边界数据的处理符合IEEE754浮点数标准。4、对所设计的高性能浮点MAC单元进行了综合优化。根据M-DSP体系结构设计目标,基于40nm工艺在典型工作条件下采用Synopsys公司的Design Compiler综合工具对FMAC单元综合,根据逻辑延时的分析结果,对FMAC单元综合报告中的关键路径进行优化。优化后综合结果表明,FMAC单元最长关键路径为450ps,运行频率可达1GHz,单元面积35250um~2,功耗6.7570mW,比传统低延迟浮点乘加结构的整体性能要高,设计的浮点MAC单元满足M-DSP体系结构设计目标。