论文部分内容阅读
嵌入式系统已经成为人们日常生活中不可或缺的一部分。智能手机,高清电视,洗衣机和汽车牵引力控制系统不仅使生活更舒适,而且使生活更安全。低成本,高性能和高能效的需求已经成为系统设计的关键,为了实现这些需求,以加速器为中心的异构计算成为有效利用硬件的最佳方式。本论文研究了高性能和高能效嵌入式系统的两种设计方法。第一种方法是基于应用剖析来定制处理器架构。第二种方法是设计专用加速器,将其集成到处理器的数据路径,以增强性能。第一种方法涉及到FlexCore处理器中的指令解压缩器的实现以及压缩和解压缩方案的分析。指令解压缩器由VHDL设计和实现,并使用Cadence RTL编译器进行了综合。针对指令解压缩器的硬件实现,本文分析了压缩方案中不同参数的影响。由于节省了内存占用,指令解压缩器大大提高了 FlexCore的性能。然后,本文利用两种类型的加法器电路,纹波进位加法器(RCA)和Sklansky型加法器(SKL),实现了基本算术逻辑单元(ALU)。本文在专用集成电路(ASIC)平台上,使用了 VHDL和标准元件设计了 ALU。综合结果表明,ALU-RCA的面积变化比ALU-SKL更快,因为ALU-RCA必须更加努力以满足严格的时间约束,具有快速加法器的ALU-SKL则可以轻松满足严格的时间约束,而不增加面积和功耗。如果时间约束不高,与ALU-SKL相比,ALU-RCA使用较少的面积和功率。在第二种方法中,设计和实现了用于坐标旋转数字计算机(CORDIC),循环冗余校验(CRC)和维特比(Viterbi)算法的专用硬件加速器块。硬件加速器被集成到嵌入式处理器数据路径,在执行时间和能源效率方面,增强了处理器性能。之所以选择这些算法是因为它们被广泛地用于信号处理和通信系统中。这些算法的混合硬件/软件实现,提高了性能和面积/能量效率。对于CORDIC,CRC和Viterbi算法,在性能和能量效率方面,加速的嵌入式处理器数据路径分别提高了 14倍,153倍和4倍。CORD1C加速器的面积节省率高,共节省了四个乘法器和两个加法器。最后,给出了两个专用异构架构的设计实例。在第一个设计中,FPGA原型数字助听器的实现分为三个不同阶段:仅软件,混合硬件/软件,仅硬件。第二个例子涉及距离和速度测量系统的实现。FPGA实现分为三个阶段:使用Microblaze处理器的完全C设计,采用定制协处理器的加速设计,以及完全定制的硬件设计。整个系统在ASIC平台上实现,基于130nm工艺技术的ASIC在面积和时间方面优化了模块。论文给出了系统实现所使用的平台的优缺点以及各种属性对性能的影响。例如,从软件阶段到完成硬件实现,在性能和能效上,提高了 400倍。与通用硬件解决方案相比,以加速器为中心的混合硬件/软件异构架构,从数量级上提高了系统的性能和能量效率。