论文部分内容阅读
声学模型区分性训练是针对基于最大似然估计准则训练万法的模型假设与现实不匹配的问题而提出的,如今区分性训练已成为自动语音识别系统声学模型训练的一个必要模块。但是,当前主流的区分性训练方法仍然存在若干不足:一、推广性较差:在测试集与训练集不匹配的情况下,获得的性能提升非常有限。二、计算复杂度较高:当前主流的区分性训练方法通常需要对训练集做一遍语音识别以产生用作竞争空间的词网或音素网,计算量较大。三、缺乏对模型结构的优化:当前方法大多通过调整模型参数的方式来提高模型的区分性,而很少考虑对模型结构的优化。本文针对这三方面问题研究,并且在模型训练准则、竞争单元的选取和模型结构的优化等方面提出了一些新方法。 第一,提出了状态层的基于对手惩罚的声学模型区分性训练方法。该方法采用KL(Kullback—Leibler)散度来度量状态间的混淆程度,为每个状态创建候选竞争状态集作为竞争空间。利用强制对齐算法对每帧语音观察做状态标注,标注状态称为正确状态,同时从该状态的候选竞争状态集中选择似然最高的状态作为竞争状态,称为最强竞争状态。学习过程中对每帧的正确状态做增强学习,同时对其最强竞争状态做惩罚学习,以此来增强状态间的区分性。实验证明该方法性能优于基于最大似然估计的训练方法。在同样实验条件下与传统区分性训练方法的比较证明该方法有较好的推广性,特别是在测试集与训练集不匹配的情况下,效果尤为明显。同时,该方法无需对训练集做一遍语音识别,降低了训练的计算复杂度。 第二,提出了音素层的基于对手惩罚竞争学习的区分性训练方法。该方法将对训练数据一遍语音识别得到的音素网作为竞争空间。根据参考音素从竞争音素网中选择正确音素和最强竞争音素,学习过程中对正确音素做增强学习,同时对最强竞争音素做惩罚学习,以此来增强音素间的区分性。在同样实验条件下与传统区分性训练方法的比较证明该方法有较好的推广性。与本文提出的状态层的方法相比,通过引入长尺度单元的竞争,提高了在匹配测试集上的识别性能。 第三,提出了基于贝叶斯阴阳和谐学习的声学模型结构优化方法,提高了模型对语音的识别能力。一方面,该方法融合状态层的区分性训练方法与高斯混合层的自动模型选择方法,在优化模型状态间区分性的同时优化高斯混合模型结构。实验证明引入状态层区分性训练的模型选择方法优于未利用区分性信息的模型选择方法,同时得到的模型结构更加紧致。另一方面,该方法用于确定基于隐马尔可夫模型的建模单元的状态数,提高隐马尔可夫模型对时序语音的识别能力。实验证明与传统经验设置的方法相比该方法得到了较好的性能。 通过上述研究表明,声学模型训练过程中引入基于对手竞争惩罚学习的声学区分性训练方法和基于贝叶斯阴阳和谐学习的模型结构优化方法,有效的增强了声学模型的区分能力,提高了语音识别的性能。