可扩展64核处理器关键技术研究—单核、加速器架构及H.264解码器实现

来源 :复旦大学 | 被引量 : 0次 | 上传用户:jy168300124
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
不断推陈出新的电子通讯、多媒体、信息安全以及云计算、大数据等新兴应用,给人们的生活带来日新月异的便利和享受,然而随之而来的往往是更加繁重而大量的运算,这无疑对数据处理终端,特别是移动嵌入式领域的硬件提出了更高的要求。人们在需求日益高性能的硬件的同时,却不得不面对“功耗墙”的窘迫。近年来,应运而生的多核处理器看似保持摩尔定律的继续发展。然而,传统的多核处理器在面对特定复杂应用时,不仅性能上仍难以满足需求,更表现出较低的能量效率。基于此,本文针对上述四个应用领域,分析各个应用的特点,在传统处理器的可编程性和ASIC的高能效之中做出折衷,设计了面向上述特定应用、拥有丰富异构加速器的64核处理器,同时在单核设计中注重高性能和低功耗的优化,降低寄存器堆和指令存储的功耗,以求达到高能效的目标。论文的主要工作可以归纳为以下几点:(1)局域网(局部双向令牌环)+广域网(全局包交换)的片上互联方式本文借鉴计算机通信领域中的局域网+广域网的概念,设计了全局二维网格结构的包交换网络,以及局部双向多令牌环的电路交换网络。一般应用的全局通信较弱而局部通信很强,在局部采用了由单一总控制器控制的双向环互联,降低了传统电路交换申请撤销路径的开销,单周期点到点通信提高了通信效率。全局包交换则可以充分利用片上交换链路的带宽,为整芯片资源共享提供通道。(2)拥有丰富异构加速器的架构设计针对不同的应用程序,提取出相应加速器模块,用硬件来提升应用程序的性能,在硬件开销很小的情况下,加速器能够带来的系统性能提升可高达10倍,本文还创新性地采用了上述的环来连接加速器与处理器,处理器与加速器之间基于环以及FIFO的通信方式使二者的通信表现出高性能低功耗的特性。(3)低功耗寄存器堆设计在嵌入式单核中,寄存器堆的功耗可以占到整个芯片的16%,本文针对寄存器堆存在的无用操作数的读取以及废弃变量的写回进行屏蔽,分别采用了异步时钟控制的读隔离和软件指导的写回丢弃,实现了寄存器堆功耗平均37%的降低。(4)单指令多进程的架构设计在嵌入式应用领域中,常有多道并行程序执行近乎一致代码的情形,在传统多核上的映射将导致多个核取同样的代码,从而导致大量的访问指令存储的冗余,针对此,本文提出了单指令多进程的架构,当出现上述情况时,可以将若干核重构成主.从模式,主核取指令,从核关闭指令存储,本设计的单指令多进程在4核主从模式下可降低平均21.9%的系统功耗。(5)H.264基本档次解码器设计针对H.264解码器的特点,提取出浓缩的运算核心模块,设计硬件加速器,并且进行软硬件的协同设计,采用四个单核+四个加速器可以实现基本档次帧内解码达到1080p@20fps的吞吐率,而利用16核+16加速器实现的并行解码则可以期望达到1080p@80fps的吞吐率。(6)芯片物理设计本次设计采用了TSMC 65nm GP工艺,进行了芯片的物理设计,在物理设计中,采用了层次化流程,并且利用DC-Topographical+ICC的流程,大量采用了有用时钟偏差,sign-off时序报告中的关键路径为0.99ns(含0.1ns uncertainty)。实现了1GHz的设计指标要求。基于Prime Time PX分析功耗,运行DES解码器时单节点功耗21.4mW。
其他文献
艺术管理专业是一门新兴学科,也是一门交叉学科,既有艺术的特点,也蕴含管理的特色。艺术管理专业在我国虽然仅有20多年的发展历史,却取得了傲人的成绩。但总体来说,我国高校
4月份,虾价依然在较高水平位置运行.与3月下旬价格相比变化不大。而今年头造虾在4月初开始出现较为集中投苗,混养成为了很多养殖户的选择。
根据能量守恒建立了注汽井热力计算的数学模型,分析了能量方程中重力势能项的作用,指出了以往计算模型的不足。根据模型编制了蒸汽参数计算程序并与4参数测试结果进行了对比,结
针对连续刚构桥跨中合龙段混凝土出现分层起壳现象的罕见病害,通过对全桥结构分析计算和对中跨跨中的局部结构分析计算,提出了跨中置换混凝土并施加体外预应力的创造性加固方法
张弦结构体系中拉索的预应力损失会对张弦结构的安全性能产生严重影响。通过对张弦结构体系全寿命期间的预应力损失因素进行分析,包括:锚固损失、分批张拉损失、摩擦损失、松