论文部分内容阅读
GMM-HMM声学模型在语音识别技术中取得了巨大的成功,但随着语音数据量的增加,数据的复杂性也越来越大,训练时间也越来越长。同时,由于高斯混合模型(Gaussian Mixture Model,简称GMM)是一个浅层模型,在复杂数据上的构建模型能力明显存在着不足,需要找到一种对数据建模能力更强的声学建模方法,而深度神经网络在声学模型建模上就具备了这种能力。此外,在特征提取方面,梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,简称MFCC)是一种在语音识别过程广泛使用的特征,但由于其计算时进行了去相关或者降维处理,势必造成部分信息的丢失。所以,本文还实验了对数域的Mel滤波器的输出为声学特征,即Filter-bank特征(简称Fbank), Fbank特征包含有更多的语音信息可用于之后的训练。本文完成了一个中文深度神经网络模型语音识别系统,主要工作包括:(1)搭建Kaldi语音识别系统开发平台,编译源代码,配置运行环境,安装CUDA并行计算架构,使用GPU加速深度神经网络训练过程;(2)在中文DNN语音识别系统开发平台上训练单音子模型,并在此模型上优化训练三音子模型,以三音子模型为基础训练和测试中文深度神经网络模型识别性能;(3)进行声学特征实验,对分别使用MFCC特征和Fbank特征的DNN模型进行训练解码;对滤波器组加密处理,提取不同维度的Fbank特征,用于训练DNN模型;滤波器组相同的情况下,增加Fbank特征帧数,用于训练DNN模型。实验结果显示:DNN模型在有限语音训练数据条件下的词错率WER (Word Error Rate)与传统GMM模型相比有12.05%的绝对降低(28.02%降至15.97%)以及43%的相对降低;采用Fbank特征与MFCC特征的DNN模型的词错率WER相比有0.86%的绝对降低(15.97%降至15.11%)以及5.38%的相对降低;Fbank特征进行滤波器组加密处理训练DNN模型的词错率WER的最好结果为14.87%;Fbank特征帧数增加训练DNN模型的词错率WER最好结果为14.33%。实验结果表明:深度神经网络模型能有效提升中文语音识别率;Fbank特征与MFCC特征相比更适合深度神经网络模型的训练;在一定范围内对Fbank特征进行滤波器组加密处理能够提升中文语音识别率;保证Fbank特征滤波器组相同的情况下,在一定范围内帧数增加可以提升中文语音识别率。