论文部分内容阅读
随着人工智能领域神经网络技术的发展,语音识别作为自然语言处理的一个分支在移动互联网、智能家居、汽车、医疗、教育等领域广泛的应用起来。语音智能终端平台中对低成本低功耗的要求和语音降噪、神经网络推理等算法巨大的计算量之间的矛盾逐渐显现出来。本文针对语音识别系统提出一种基于可变形的乘加器阵列以及相应的内存架构为基础的语音智能加速器。该加速器系统集成简单,通过配置阵列可以进行多种数据类型如8比特、16比特、32比特的实数、复数的向量、矩阵、FFT等数字信号处理运算,也可以配置进行卷积神经网络CNN加速、深度神经网络DNN的加速。该加速器时分复用来处理语音智能系统中声学降噪、特征提取的DSP功能和神经网络推理,降低了系统集成的复杂性,能够灵活应对不同场景下数字信号处理和神经网络不同的负载比例。通过微指令系统可改变加速器内部结构可应对多种算法,拥有较高的适用性。该加速器如采用256个8位有符号乘法器阵列时可以提供相对于高性能DSP(HiFi-4)2.x-8.x API级别的性能提升,对比ARM Cortex-A7NEON 4核平台性能提高6.x倍。针对于语音智能中的语音唤醒、语音合成、语音识别的卷积神经网络和深度神经网络能达到平均198GOPS@500MHz。在六麦克风阵列语音交互系统中,采用该加速器和低性能的ARM Cortex-M4 MCU组合可以完全满足实时性。该加速器配置128KB本地内存时在TSMC 40nm工艺下布局布线后面积为1.53mm~2,实测平均功耗119mA@300MHz。