论文部分内容阅读
摘要: 随着计算机技术的发展,人们对有限的系统资源处理多种类型的事务的效率要求越来越高。通常的解决方案倾向于使用RISC和DSP搭配的协处理系统以取长补短,弥补这两类处理器各自所受的应用范围局限,但同时也会会大幅增加系统结构的复杂性,并对成本、功耗、可靠性等多方面性能带来不利影响。从处理器的体系结构与功能特点出发。分析RISC和DSP两类处理器的主要性能差距,具有一定的指导意义。
关键词: DSP;RISC;性能区别;S1C33;TMS320C3
中图分类号:TP332 文献标识码:A 文章编号:1671-7597(2011)0310194-01
1 DSP与RISC概述
DSP(digital signal processor)是一种独特的微处理器,是以数字信号来处理大量信息的器件。其工作原理是接收模拟信号,转换为0或1的数字信号。再对数字信号进行修改、删除、强化,并在其他系统芯片中把数字数据解译回模拟数据或实际环境格式。它不仅具有可编程性,而且其实时运行速度可达每秒数以千万条复杂指令程序,远远超过通用微处理器,是数字化电子世界中日益重要的电脑芯片。它的强大数据处理能力和高运行速度,是最值得称道的两大特色。
由于DSP自身具备的优越性,它自诞生以来,迅速得到广泛的应用。DSP应用几乎遍及整个电子应用领域,典型应用有通信、语音处理、图形/图像处理、自动控制、仪器仪表及医学电子等。随着人们对实时信号处理要求的不断提高和大规模集成电路技术的迅速发展,DSP的黄金时代正在来临。
RISC(精简指令集计算机)结构是单片机发展的一个主要方向,因为其高性能和丰富的扩展功能,如今己经占据了主要的中高端应用领域。RISC采用大量的寄存器,使大部分指令操作都在寄存器之间进行,提高了处理速度;高端的RISC处理器一般采用缓存主机外存三级存储结构,使取数与存数指令分开执行,使处理器可以完成尽可能多的工作,且不因从存储器存取信息而放慢处理速度。由于RISC处理器指令简单、采用硬布线控制逻辑、处理能力强、速度快,除了嵌入式领域以外,世界上的许多计算机设备甚至工作站都采用了这种架构的通用处理器.本文下文提到的单片机都是基于RISC这一架构的。
2 DSP与RISC的主要区别
2.1 存储器结构
传统上,普通RISC使用冯.诺依曼存储器结构。这种结构中,只有一个存储器空间通过一组总线(一个地址总线和一个数据总线)连接到处理器核。通常,做一次乘法会发生4次存储器访问,用掉至少四个指令周期。大多数DSP采用了哈佛结构,将存储器划分成程序和数据两个空间。有着相互独立的程序总线和数据总线,由于可以同时对数据和程序进行寻址,大大地提高了数据处理能力,非常适合于实时的数字信号处理。两组总线连接到处理器核,允许同时对它们进行访问。这种安排将处理器存储器的带宽加倍,更重要的是同时为处理器核提供数据与指令。在这种布局下,DSP得以实现单周期的MAC指令。一些高性能DSP通常包含片内高速缓存,它们直接连接到处理器核,以加快访问速度。
2.2 专用的硬件乘法器
在普通RISC上,算术逻辑单元(ALU)只能完成加、减及逻辑运算,而乘法和除法则由加、减法和移位来实现。使用加法和移位组合操作来实现的乘法运算,其实现过程会相当较慢。与此不同的是,大多DSP都有硬件乘法器,16位或32位乘法运算可以在一个指令周期内完成。
2.3 低开销跳转或循环
通常的数字信号处理算法有一个共同的特点,即大多数的处理时间是花在执行较小的循环上,所以大多数的DSP都有专门的硬件,用于零开销循环。所谓零开销循环是指处理器在执行循环时,不用花时间去检查循环计数器的值,而是直接移动指到到循环的顶部。与此相反,RISC的循环使用软件来实现(某些高性能的RISC带有分支预测的硬件支持,几乎达到与DSP零开销循环同样的效果)。
3 典型DSP和RISC的性能区别
3.1 处理器芯片选择和参照
这里选用现在如今嵌入式应用领域中最为典型的一款RI SC处理器和DSP进行比较。参照DSP的运算功能对RISC进行数字信号处理的实现和相关优化。它们分别是EPSON公司32位 MCUS1C33系列ARM7内核RISC处理器和TI司的TMS32OC3X系列DSP。将这两款处理器放在一起做参照的原因是:
1)都是现今实际应用场合的主流中低端嵌入式处理器,在各自的领域都有大量的应用实例。
2)S1C33是典型ARM7内核RISC处理器的代表,而TMS32OC3X是典型DSP的代表。
3)两款处理器的工作频率比较接近,都分布在60M左右。
4)两者都拥有简单的流水线架构,前者为3级流水线,后者为4级流水。
5)S1C33拥有集成在芯片内部的简单乘/除法运算,MAC运算,长字节移位运算的硬件支持部件,这些特殊的部件使S1C33的类DSP操作性能接近或达到DSP处理器成为可能。
3.2 主要性能比较
由于S1C33和TMS32OC3X具有相同的工作频率,所以指令执行所需的时钟周期个数的差异就代表了执行时间的差异。表1的每一行代表了数字信号处理应用中常见的基本操作和影响运行性能的指令组合关系,不同列代表了TMS320C3X和S1C33对于不同操作的运行性能和不同指令组合关系对性能的影响程度。在实际的应用中,可以先将代码分解成一些基本元素,分别分析它们对性能的影响,然后再将这些影响进行合理的统计,得到DSP和RISC对于该应用的量化性能差异。
虽然S1C33在交互,调度等单条事务控制指令的开销和流水线冲突避免方面相对TMS320C3X具有更大优势,但是在数字信号处理的应用场合,执行效率往往仅及后者的1/30到1/10,这是因为普通的编译器不能完全发挥出这种RISC处理器的架构和硬件上的优势,而且本身的源代码编写太过标准化和格式化,通用的类DSP算法,再加上频繁的函数调度,势必造成处理效率低下。在对实时性有苛刻要求的场合,这样的执行效率肯定无法胜任。所以应当对代码进行优化,以便充分发挥出S1C33处理器的优势。
参考文献:
[1]Seiko Epson Corporation.S1C33 Family Application Note [EB/OL].
2001.
[2]邓德祥等,G.723.1编译码算法的DSP实现.通信技术与设备[J].2002.
作者简介:
王光宇(1988-),男,河北人,天津工业大学。
关键词: DSP;RISC;性能区别;S1C33;TMS320C3
中图分类号:TP332 文献标识码:A 文章编号:1671-7597(2011)0310194-01
1 DSP与RISC概述
DSP(digital signal processor)是一种独特的微处理器,是以数字信号来处理大量信息的器件。其工作原理是接收模拟信号,转换为0或1的数字信号。再对数字信号进行修改、删除、强化,并在其他系统芯片中把数字数据解译回模拟数据或实际环境格式。它不仅具有可编程性,而且其实时运行速度可达每秒数以千万条复杂指令程序,远远超过通用微处理器,是数字化电子世界中日益重要的电脑芯片。它的强大数据处理能力和高运行速度,是最值得称道的两大特色。
由于DSP自身具备的优越性,它自诞生以来,迅速得到广泛的应用。DSP应用几乎遍及整个电子应用领域,典型应用有通信、语音处理、图形/图像处理、自动控制、仪器仪表及医学电子等。随着人们对实时信号处理要求的不断提高和大规模集成电路技术的迅速发展,DSP的黄金时代正在来临。
RISC(精简指令集计算机)结构是单片机发展的一个主要方向,因为其高性能和丰富的扩展功能,如今己经占据了主要的中高端应用领域。RISC采用大量的寄存器,使大部分指令操作都在寄存器之间进行,提高了处理速度;高端的RISC处理器一般采用缓存主机外存三级存储结构,使取数与存数指令分开执行,使处理器可以完成尽可能多的工作,且不因从存储器存取信息而放慢处理速度。由于RISC处理器指令简单、采用硬布线控制逻辑、处理能力强、速度快,除了嵌入式领域以外,世界上的许多计算机设备甚至工作站都采用了这种架构的通用处理器.本文下文提到的单片机都是基于RISC这一架构的。
2 DSP与RISC的主要区别
2.1 存储器结构
传统上,普通RISC使用冯.诺依曼存储器结构。这种结构中,只有一个存储器空间通过一组总线(一个地址总线和一个数据总线)连接到处理器核。通常,做一次乘法会发生4次存储器访问,用掉至少四个指令周期。大多数DSP采用了哈佛结构,将存储器划分成程序和数据两个空间。有着相互独立的程序总线和数据总线,由于可以同时对数据和程序进行寻址,大大地提高了数据处理能力,非常适合于实时的数字信号处理。两组总线连接到处理器核,允许同时对它们进行访问。这种安排将处理器存储器的带宽加倍,更重要的是同时为处理器核提供数据与指令。在这种布局下,DSP得以实现单周期的MAC指令。一些高性能DSP通常包含片内高速缓存,它们直接连接到处理器核,以加快访问速度。
2.2 专用的硬件乘法器
在普通RISC上,算术逻辑单元(ALU)只能完成加、减及逻辑运算,而乘法和除法则由加、减法和移位来实现。使用加法和移位组合操作来实现的乘法运算,其实现过程会相当较慢。与此不同的是,大多DSP都有硬件乘法器,16位或32位乘法运算可以在一个指令周期内完成。
2.3 低开销跳转或循环
通常的数字信号处理算法有一个共同的特点,即大多数的处理时间是花在执行较小的循环上,所以大多数的DSP都有专门的硬件,用于零开销循环。所谓零开销循环是指处理器在执行循环时,不用花时间去检查循环计数器的值,而是直接移动指到到循环的顶部。与此相反,RISC的循环使用软件来实现(某些高性能的RISC带有分支预测的硬件支持,几乎达到与DSP零开销循环同样的效果)。
3 典型DSP和RISC的性能区别
3.1 处理器芯片选择和参照
这里选用现在如今嵌入式应用领域中最为典型的一款RI SC处理器和DSP进行比较。参照DSP的运算功能对RISC进行数字信号处理的实现和相关优化。它们分别是EPSON公司32位 MCUS1C33系列ARM7内核RISC处理器和TI司的TMS32OC3X系列DSP。将这两款处理器放在一起做参照的原因是:
1)都是现今实际应用场合的主流中低端嵌入式处理器,在各自的领域都有大量的应用实例。
2)S1C33是典型ARM7内核RISC处理器的代表,而TMS32OC3X是典型DSP的代表。
3)两款处理器的工作频率比较接近,都分布在60M左右。
4)两者都拥有简单的流水线架构,前者为3级流水线,后者为4级流水。
5)S1C33拥有集成在芯片内部的简单乘/除法运算,MAC运算,长字节移位运算的硬件支持部件,这些特殊的部件使S1C33的类DSP操作性能接近或达到DSP处理器成为可能。
3.2 主要性能比较
由于S1C33和TMS32OC3X具有相同的工作频率,所以指令执行所需的时钟周期个数的差异就代表了执行时间的差异。表1的每一行代表了数字信号处理应用中常见的基本操作和影响运行性能的指令组合关系,不同列代表了TMS320C3X和S1C33对于不同操作的运行性能和不同指令组合关系对性能的影响程度。在实际的应用中,可以先将代码分解成一些基本元素,分别分析它们对性能的影响,然后再将这些影响进行合理的统计,得到DSP和RISC对于该应用的量化性能差异。
虽然S1C33在交互,调度等单条事务控制指令的开销和流水线冲突避免方面相对TMS320C3X具有更大优势,但是在数字信号处理的应用场合,执行效率往往仅及后者的1/30到1/10,这是因为普通的编译器不能完全发挥出这种RISC处理器的架构和硬件上的优势,而且本身的源代码编写太过标准化和格式化,通用的类DSP算法,再加上频繁的函数调度,势必造成处理效率低下。在对实时性有苛刻要求的场合,这样的执行效率肯定无法胜任。所以应当对代码进行优化,以便充分发挥出S1C33处理器的优势。
参考文献:
[1]Seiko Epson Corporation.S1C33 Family Application Note [EB/OL].
2001.
[2]邓德祥等,G.723.1编译码算法的DSP实现.通信技术与设备[J].2002.
作者简介:
王光宇(1988-),男,河北人,天津工业大学。