论文部分内容阅读
高性能嵌入式计算深入到现代社会生活、工业生产、军事应用等各个领域,深刻地影响着现代社会的发展。由于实时计算复杂度高、并行性强等原因,现代高性能嵌入式计算系统逐渐从传统的单线程计算模式进化为更体现应用特点的片上大规模并行嵌入式计算模式。然而,在片上大规模并行嵌入式计算中,微处理器体系结构和应用算法等诸方面均面临着新的挑战。以H.264/AVC为代表的高清实时视频压缩在消费电子和专业视频领域均有广泛的应用,其计算复杂度高、并行度高,是典型的高性能嵌入式计算和片上大规模并行嵌入式计算问题。对其进行案例研究不仅能够解决其本身所面临的挑战,而且能为解决其他片上大规模并行嵌入式计算问题的挑战提供思路。本文在对H.264/AVC中的数据相关性、计算复杂性和算法并行计算特性进行分析综述的基础上,对适合片上大规模并行嵌入式计算的层次结构性能模型、H.264/AVC编码器中的串行CABAC(Context-based Adaptive Binary ArithmeticCoding,基于上下文自适应的二进制算术编码)熵编码加速器、CABAC熵编码并行化以及层次结构硬件平台和并行编码器原型系统等方面重点内容展开了研究。本文的主要研究成果和创新性主要体现在以下几个方面:1)提出了层次化片上大规模并行体系结构的Amdahl加速比扩展模型。通过引入层次化片上大规模并行体系结构的非一致性片上数据通信和访存开销模型,本文对Amdahl定律进行扩展,研究了层次结构中多个核耦合形成的超节点对系统性能的影响。通过模型分析发现,要获得良好的性能加速比,层次结构需要在超节点数目与超节点的聚合度(超节点包含的核的个数)之间作仔细的权衡;对于给定核数目的层次化片上大规模并行体系结构,使系统性能最优的超节点聚合度往往出现在中间某个值而不是最大或者最小值,并且该值随着系统规模的变化会发生相应的变化。2)提出了一种采用语法元素指令流驱动的全流水CABAC熵编码结构。已有的CABAC硬件加速器结构未考虑加速器与可编程处理器之间的软硬件协作,而这是片上大规模并行嵌入式计算的一类重要问题。本文提出的CABAC熵编码结构采用规格化的语法元素指令流驱动,使得加速器与CPU之间的接口规整,软硬件能实现有效的分工合作。通过采用细致的流水线结构,本文提出的结构可以每周期处理一个符号。在0.13um标准单元工艺下实现结果显示,本文提出的CABAC硬件加速器仅开销3.21K门逻辑就可达到590Mbps的吞吐率。3)为进一步提高CABAC的吞吐率,本文提出了一种基于语法元素分组的CABAC三线程可并行算术编码算法P3-CABAC,并对其硬件结构和开销进行了评估。与已有的CABAC并行算法关注的是细粒度的符号级并行算法和结构不同,P3-CABAC把每个宏块内待编码语法元素按照一定的规则静态地划分为三组,并用三个线程的资源对其进行并行编码,首次实现了线程级并行算术编码器算法。除处理的语法元素不同之外,P3-CABAC的每个线程编码算法均与标准CABAC相同。这使得P3-CABAC的线程级并行算法与已有CABAC快速算法正交,二者可在同一系统同时使用。软件模拟发现,对于高清视频序列,P3-CABAC在不超过3%的码率代价下,可达到最高2.68的加速比。对P3-CABAC的硬件结构进行分析发现,相比前文的CABAC加速器,P3-CABAC的硬件结构仅需付出60%左右的额外硬件开销。4)提出了一种基于局部集中式共享存储超节点的层次化64核片上多DSP体系结构平台,并对其性能优势进行了评估。根据层次结构Amdahl性能模型研究结果,本文利用4个精简DSP、通过共享存储器的方式耦合形成超节点;16个超节点通过片上互连结构形成该层次化64核片上多DSP体系结构。通过在其Verilog行为级模型上进行软件算法映射,本文对该层次结构的性能进行了初步评估。实验结果发现,相比比非层次化64核多DSP系统,即便不采用特殊的局部化映射算法,该64核层次化片上多DSP系统仍然获得了最高1.55的系统加速比。这充分体现了层次结构的性能优势。5)在已有64核层次化片上多DSP体系结构平台基础之上,本文构建了集成P3-CABAC加速器的宏块级/子任务级混合并行H.264/AVC主要档次编码器软硬件原型系统。该原型系统用一个包含P3-CABAC硬件加速器的专用超节点替换了64核层次化多DSP平台中的一个普通超节点,构成硬件平台。软件算法采用宏块级数据并行和宏块内子任务并行相结合的混合并行机制:在所有15个常规超节点间以超节点为单位进行宏块级并行,而在每个超节点内部的4个DSP核之间进行宏块编码子任务级并行。同时,采用课题组之前提出的CABAC码率估计技术突破了复杂率失真优化模式选择对主要档次宏块级并行算法的限制。在节拍精确的超节点模拟器上进行的初步模拟和结果分析发现,该异构原型编码器对高清视频序列可达到平均约50的加速比。综上所述,本文的研究从典型实例出发,研究成果不仅为以片上大规模并行的方式解决H.264/AVC实时高清视频编码提供了技术储备,也为解决其他片上大规模并行嵌入式计算问题面临的软硬件挑战提供了借鉴思路。