论文部分内容阅读
卷积神经网络(Convolutional Neural Networks,CNN)在视觉感知领域取得了优秀的识别效果,彻底改变了传统计算机的视觉框架。然而,受限于存储器带宽瓶颈及计算功耗问题,CNN在移动物联网端的应用举步维艰。因此,如何突破存储器的限制,实现高能效的卷积计算具有重要意义。其中一个思路是使用二值网络降低计算的数据量,从而减少功耗开销。此外,存内计算(Computing In Memory,CIM)突破传统的冯·诺伊曼架构,在高能效计算领域展示出得天独厚的优势。为解决访存与计算功耗问题,本文基于课题组在静态随机存取存储器(Static Random Access Memory,SRAM)方面的研究经验,设计了一款面向CNN的高能效SRAM计算阵列。该阵列兼顾了卷积计算模式和SRAM存储器模式,将计算单元嵌入SRAM阵列,实现脉冲调制计算的CIM架构,同时大幅度降低访存与计算开销。此外,针对脉冲信号的量化问题,本文设计了一种基于时域累加的并行量化器,量化器采用先累加再量化的方式,消除了多行脉冲独立量化带来的误差累积。最后,本方案从卷积核分解,权重载入,特征值自适应计算三个方面,进一步降低了访存与计算。本方案在TSMC 28nm HPC+工艺下,完成了电路设计与版图实现,并提交流片。SRAM计算阵列的大小为896*224比特,后仿真结果表明,在TT工艺角25℃0.9V,主频500MHz情况下,SRAM模式的写良率达到100%,满足设计需求;计算模式下,以权重二值化的AlexNet为基准,取得了39.03Tops/W的高能效(后仿真结果),是同类型数字架构的17.74x和1.96x(对比对象为实测结果),同时与其他CIM架构相比,本方案的优势在于拥有更高的灵活性,可以实现更高精度的网络。