论文部分内容阅读
语音信号位于一个高维空间中,受发音上下文、说话人、说话环境等因素的影响,它存在大量的不确定性。如何根据有限的训练数据得到精确的声学模型,如何根据少量的自适应数据对其进行调整、使之与测试数据相匹配,一直是连续语音识别中研究的热点和难点问题。子空间方法通过寻找高维数据的低维流形,可以有效地对数据进行降维,降低模型的复杂度,提高模型参数估计的稳健性。本文研究如何利用子空间技术来得到更好的声学模型与自适应方法,主要内容分为以下三个方面:一、背景知识及国内外研究进展。介绍了基于隐马尔可夫模型-高斯混合模型(HMM-GMM)框架的连续语音识别基本原理,分析了现阶段声学建模及自适应方法的研究现状,详述了现有方法的优缺点,并给出了论文的研究内容、研究思路和组织结构。二、基于子空间的声学模型。众多研究表明,语音信号存在一个嵌入于高维空间中的低维非线性流形结构。本文通过寻找声学特征空间中低维非线性流形结构的概率模型,应用流形上的压缩感知原理,研究一种新型的基于子空间的声学模型及其区分性训练方法。主要创新点如下:1、提出了一种基于混合因子分析(MFA)的声学模型。利用多个局部线性的因子分析模型对非线性流形结构进行逼近,得到声学特征矢量基于混合因子分析的先验概率模型,进而利用流形上的压缩感知原理,建立各上下文相关状态的观测概率模型。由于各状态共享相同的流形结构,大大减少了模型参数;借助压缩感知和贝叶斯原理,提高了参数估计的稳健性。文中给出了声学特征空间中MFA模型的迭代训练算法,并详细推导了各状态参数的最大似然估计公式。RM语料库及WSJ语料库上的连续语音识别实验均表明,MFA声学模型优于传统的HMM-GMM声学模型和基于子空间高斯混合模型(SGMM)的声学模型。2、提出了一种基于提升最大互信息(BMMI)准则的MFA声学模型区分性训练算法。通过构造弱辅助函数,推导了各参数的区分性迭代估计公式。为了提高估计的稳健性,通过引入适当的高斯先验分布,分别给出了各参数基于BMMI准则的最大后验估计(MAP)算法。实验结果表明,区分性训练后,MFA声学模型的识别性能得到进一步提升,优于经过区分性训练的传统HMM-GMM声学模型和SGMM声学模型。三、基于子空间的声学模型自适应方法。根据模型参数在说话人与音子维度的相关性信息,结合压缩感知理论与正则化方法,深入研究基于说话人子空间与音子变化子空间的声学模型自适应方法。前者适合于少量语料条件下的快速自适应,后者适合于语料充足条件下的自适应。通过贝叶斯方法将两者的优点进行结合,从而可以在未知数据量条件下达到尽可能好的自适应效果。主要创新点如下:1、利用说话人维度的相关性信息,提出了一种基于压缩感知和说话人子空间的自适应方法。在训练阶段构造一个冗余的说话人基矢量字典,在自适应阶段根据最大似然准则和压缩感知原理,估计未知说话人模型参数的稀疏组合。文中推导了基于匹配追踪与l1正则化方法的两种估计算法,前者速度较快,后者准确性较高。新方法融合了本征音(EV)与参考说话人加权(RSW)方法的优点,通过对坐标矢量引入稀疏约束,解决了子空间维数确定与基矢量选择问题。其待估参数数量较少,适用于少量自适应语料条件下的快速自适应。微软语料库与WSJ语料库上的实验结果均表明,新方法优于EV和RSW方法。2、利用音子维度的相关性信息,提出了一种基于音子变化子空间的自适应方法。假设说话人相关(SD)声学模型中模型参数的变化值位于一个音子变化子空间中。在训练阶段估计一组说话人无关的坐标矢量,在自适应阶段估计未知说话人音子变化子空间的基矩阵。文中推导了坐标矢量和基矩阵的最大似然估计公式,并给出了一种新的声学模型自适应训练方法。由于待估参数较多,该方法适合于语料充足条件下的自适应,在语料不足时极易出现过拟合问题。进一步地,针对这一问题,论文通过各种正则化方法提高基矩阵估计的稳健性。分析了l1范数、l2范数、弹性网、核范数、组稀疏约束和稀疏组LASSO等六种正则化方法及其对基矩阵估计的影响,并给出了一种统一的求解算法。微软语料库和RM语料库上的实验结果均表明,新方法比传统方法具有更高的自适应性能;各正则化方法均能提高其稳健性,其中稀疏组LASSO正则化方法具有最好的性能。3、利用子空间的概率模型和贝叶斯原理,将音子变化子空间与说话人子空间相结合,提出了一种层次化的贝叶斯自适应方法。对音子变化子空间的基矩阵进行说话人子空间分析,利用概率子空间建模,得到模型参数的层次化先验概率模型;根据贝叶斯自适应原理,得到一种层次化的贝叶斯自适应方法。文中推导了各层变量的贝叶斯估计公式,并给出了一种在线说话人自适应方法。进一步,通过一组简化的贝叶斯估计公式将前述各方法的优点相结合,在各种自适应语料条件下均可获得更好的自适应性能。实验表明,无论对传统的HMM-GMM声学模型,还是MFA声学模型,新方法都可以取得很好的说话人自适应效果。