论文部分内容阅读
近年来,越来越多的语音识别智能应用走入了大家的日常生活。语音端点检测(Voice Activity Detection,VAD)作为语音识别领域中必不可少的关键技术之一,其精确性和功耗在整个语音识别系统中起着十分重要的作用。从传统的VAD加速器所面临的非平稳噪声下精确度低、功耗大等问题出发,本文设计并实现了一种基于深度神经网络(Deep Neural Network,DNN)的高鲁棒性低功耗VAD。本文从VAD模型的算法特征出发,分别针对特征提取和语音分类做了算法优化和硬件实现。首先,优化了基于梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)的特征提取算法,并利用高鲁棒性DNN实现了快速傅里叶变换、离散余弦变换以及语音分类,提高了VAD在低信噪比和非平稳噪声下的性能,提高了语音和非语音命中率,实现了VAD的高鲁棒性;其次,引入数模混合近似计算,基于多阶量化共享乘法器实现VAD的动态精度可配运算,降低了运算复杂度和电路复杂度,实现了VAD的低功耗高能效。本文采用TSMC28nm工艺,VAD布局布线后的面积为0.52mm~2,工作频率为1.6MHz,功耗约为6~12μW,能效可达33.33~66.67TOPS/W。实验结果表明,本文通过优化VAD的算法和硬件实现,相比于Price等人的研究结果相比,精确度增长了9%,能效提高至Thinker的6.5倍,改善了当前VAD面临的功耗高和精确度低的问题。本文对VAD设计提供了一种新的解决方案。