论文部分内容阅读
X-DSP是一款我国自主研发的64位数据位宽的多核通用数字信号处理器,广泛应用于高性能计算、图像和视频的处理等领域,但其浮点基本函数运算单元的发展相对缓慢,仍然有很高的提升空间。论文依托X-DSP项目,旨在改进其内核运算部件中的浮点运算单元。主要工作包括:1.完成了基于Chebyshev插值多项式算法逼近单精度浮点初等函数设计。基于Chebyshev插值多项式算法,通过分析各单精度浮点函数分段多项式逼近的参数,包括多项式项数和检索位宽,确定了以三次四项多项式分段逼近各浮点初等函数。整体结构共分三大模块:预处理模块、多项式计算、后处理模块。通过设计其中的关键模块如基4booth算法乘法器、数前导0模块、4-2加法器、基于CSD算法的/2?常系数乘法器,完成整体硬件结构设计。2.完成了SIMD结构的半精度浮点初等函数计算模块设计。在Chebyshev插值多项式算法计算单精度浮点函数基础上,通过分析各半精度浮点函数分段多项式逼近的参数,确定了以二次三项多项式分段逼近各半精度浮点初等函数并实现其整体硬件结构。通过合理的分配使用乘法器,合理设计数前导0模块和4-2加法器模块,实现了SIMD结构的半精度浮点函数计算,同时可以复用单精度浮点函数计算通路的绝大部分硬件模块,大大减少了硬件面积。3.提出多级查找与Taylor展开相结合的算法。针对硬件函数在分段多项式逼近算法中遇到的精度损失问题,本文提出了多级查找与Taylor展开结合算法,解决了其精度损失问题,使得对数函数计算结果相对误差小于1ulp。当输入数据检索位宽全部为0时,选择多级查找通路,其他输入仍由单级多项式逼近算法完成。4.完成了初等函数计算引擎的验证与综合。通过现有验证环境与综合环境对设计进行验证与性能评估。测试结果表明,单精度和SIMD结构半精度浮点函数计算结果相对误差可以达到目标精度(1ulp)。论文研究结果表明,改进的浮点基本函数计算的性能和精度有明显的提高。