论文部分内容阅读
近年来,伴随着各种语音助手的出现,语音唤醒技术备受关注。通过唤醒词来激活设备,一方面可以解放人类的双手,另一方面可以使得设备不用持续处于工作状态,节省不必要的计算资源浪费,也是对用户隐私的一种有效保护。在深度学习算法的介入下,让系统对指定唤醒词具有非常高的召回率并非难事。由于在设备上的计算资源和内存空间非常有限,加之在实用场景中环境复杂,要让系统对指定的唤醒词具有快速、精准的检出能力,同时对于虚警有着足够的抑制能力才是最具挑战性的。另外,目前大多语音唤醒算法非常依赖唤醒词数据。语音数据获取困难,指定的唤醒词数据更是稀缺,一般需要根据特定的需求去录制收集,且一旦唤醒词需要修改,带来的数据重新录制和模型重新训练的工作非常繁重。针对这些问题,本文对基于关键词-垃圾模型的唤醒词检测,以及其后的二级分类器进行研究,主要内容如下:(1)引入语音识别中的低帧率技术和序列鉴别性训练,在不依赖于唤醒词数据的情况下,构建基于非词格依赖的最大化互信息准则(Lattice-free Maximize Mutual Information,LFMMI)的唤醒词检测系统,相比普通的基于隐马尔科夫模型-深度神经网络混合模型(Hidden Markov Model-Deep Neural Network,HMM-DNN)的唤醒词检测系统,在近场和远场条件下整体识别性能大大提高,解码速度约为其3.34倍,同时保持99%以上的唤醒词召回率。(2)为了以极低的代价换取强大的虚警抑制能力,本文以基于LFMMI的唤醒词检测系统为一级检测系统,并在其后添加一个轻量的二级深度神经网络(Deep Neural Network,DNN)分类器。在依赖唤醒词数据的情况下,从一级系统的解码器输出中,提取有效的信息,探索设计了三种精简的二级特征作为分类器的输入,分别是音素时长特征、音素声学确信度和音素声学似然差异。实验结果说明:两级系统相比原来的一级系统,对唤醒词的召回率下降约0.35%,但是对于虚警的抑制能力大大增强,误触发下降了近69倍。与最优的以音素匹配分数为二级特征的两级唤醒词检测系统相比,在唤醒词检出能力和虚警抑制能力上是可比拟的,但在识别速度和二级特征的精简度上则是本文系统更优。这部分的工作已经在广州视源电子科技股份有限公司得到验证和落地应用。(3)为了让唤醒词检测系统彻底摆脱对唤醒词数据的依赖,本文探索设计了从通用数据集中抽取有用信息并提取适合二级DNN分类器训练的正样本的特征,从而使得二级DNN分类器训练不再依赖唤醒词数据。实验的最终结果显示:在不依赖唤醒词数据的情况下,相比原来的一级系统,两级系统整体误触发下降了近125倍,而唤醒词召回率仅下降约2.19%。