论文部分内容阅读
语音关键词检测是一种从连续的语音流中检测预定义的一组关键词的技术,它的一种主流方法是基于大词汇量连续语音识别器(Large Vocabulary Continuous Speech Recognition,LVCSR)的。基于语音识别器的关键词检测系统主要有两个阶段——解码阶段和检测阶段,语音识别器的性能对关键词检测的性能有很大影响。传统的关键词检测是用GMM(Gaussian Mixture Model)和HMM(Hidden Markov Model)结合的GMM-HMM模型作为LVCSR的声学模型,其识别率不高。近年来深度学习技术对语音识别产生了巨大影响,人们对DNN(Deep Neural Network)替代GMM组成DNN-HMM声学模型进行了深入研究。本文研究在关键词检测中用DNN-HMM声学模型替代GMM-HMM声学模型,并在DNN-HMM声学模型的基础上建立关键词检测系统。实验结果表明,基于DNN-HMM模型的语音识别器相比基于GMM-HMM模型的语音识别器识别率更高,关键词检测系统的性能也更好。针对基于LVCSR的关键词检测两阶段间缺乏紧密联系的问题,本文在DNN-HMM声学模型的基础上,研究了在声学模型的训练阶段,对关键词赋予较大的权重以提高模型对关键词的建模能力。因此,本文考虑在区分性训练中,利用侧重关键词的非均匀准则进行训练。本文首先研究了对关键词进行侧重的非均匀MCE(Minimum Classification Erro)准则,然后用非均匀MCE准则对声学模型参数进行优化。非均匀MCE准则中关键词的权重系数对识别结果有一定影响,固定权重系数的缺点是较大的权重系数可能导致过训练。因此本文研究利用Ada Boost(Adaptive Boosting)算法来动态调整非均匀MCE训练过程中的权重系数,Ada Boost算法可以避免非均匀MCE准则中的过训练问题,提高模型的泛化能力。实验结果表明,基于Ada Boost算法的非均匀MCE准则的关键词检测性能更好。此外,本文还研究了非均匀s MBR(statelevel Minimum Bayes Risk)准则,实验结果表明,基于非均匀s MBR方法的系统性能要好于基线系统,本文最后对这两种非均匀准则进行了总结和对比。