论文部分内容阅读
隐马尔可夫模型(Hidden Markov Model, HMM)一直作为语音识别系统声学建模的基本模型。由于其参数规模在考虑上下文发音的影响后急剧增长,在训练数据有限时模型参数无法被充分训练。本文引入一种基于子空间高斯混合模型(Subspace Gaussian Mixture Model, SGMM)的语音识别方法。区别于传统的HMM框架每个状态均关联若干个均值方差参数来计算输出概率,子空间高斯混合模型的每个状态只关联一个低维的映射向量,其均值和方差通过所有状态共享的映射矩阵计算得到。模型的参数规模因此大幅降低,从而在训练数据有限时,模型参数较传统HMM训练更充分。子空间高斯混合模型在英语,法语,以及西班牙语中已经被证实有效,在本文之前还尚未进行过中文测试。本文运用空间高斯混合模型的思想,成功搭建了中文的子空间高斯混合模型语音识别系统,主要完成的工作有:1)搭建子空间高斯混合模型语音识别系统。配置运行环境以及编译源代码,整理训练和测试数据,设计和实现模型训练和解码的脚本程序。2)训练和测试中文子空间高斯混合模型。训练单音子HMM,以及在此模型的基础上进行了一系列模型优化措施,其中包括:三音子模型训练,线性特征转换,区分性训练以及发音人自适应,并通过这些模型得到子空间高斯混合模型,最后对模型进行测试。测试结果中子空间高斯混合模型在有限的语音训练数据条件下能够使得词错误率(word error rate, WER)相比较传统隐马尔可夫模型有6.44%的绝对降低(23.43%降至16.82%)以及28%的相对降低。测试结果表明:子空间高斯混合模型框架的确能够有效提升中文语音识别率;并且现有的优化算法,如模型细化、特征优化、区分性训练、发音人自适应等,在该模型框架下依然有效。