论文部分内容阅读
声学建模是语音识别领域中的关键问题之一。本文对汉语连续语音识别中的声学建模技术和参数共享策略进行了深入的研究。主要针对以下两个方面:一、研究了基于决策树状态共享的上下文相关声学建模方法,其中针对声学建模的声学单元选择和决策树问题集设计进行了深入研究和优化;二、针对声学模型训练过程中的实际问题,如训练数据稀疏,模型选择和发音变体等问题对声学建模过程进行了优化。具体包括以下几个方面:1.对HTK平台进行了研究和分析,在深入了解HTK平台的基础上展开声学模型训练和性能评估实验。其中,对上下文相关(ContextDependent,CD)声学建模中基于决策树状态共享策略进行了深入研究。分析了两种不同的决策树构造方法,讨论了问题集的设计和决策树节点的分裂策略,并展开了一系列优化决策树状态共享的上下文相关声韵母(CD Initial/Final,CD-IF)的基线声学模型的实验。a)为了保证声韵母之间的相互搭配关系,在原来的基本声韵母集合上,增加了零声母部分,形成扩展声韵母(ExtendedInitial/Final,XIF)集合。实验证明XIF模型比IF模型具有较高的识别率。b)根据语音学知识优化了决策树问题集的设计,并调整了决策树分类门限,在单混合度下,获得了4%的音正确率提升。2.针对训练语料中一些声韵母三音子有调样本数和无调样本数的不平均现象,本文首次提出通过无调声韵母三音子模型为有调声韵母三音子模型做初始化的方法优化声学模型。该方法在相同条件的训练和测试集下提高了识别性能,特别是在有调三音子稀疏现象明显的测试集中效果提高显著。此外,本文研究了声学模型的复杂度调整策略,通过自适应混合分量增长策略,在高斯数目少于混合分量数为6时,识别正确率与混合分量数为8时相当,并且在一定程度上减少了高斯总数。3.研究并实现了半连续分段概率声学模型。该模型在经典HMM模型及其模型混合高斯连续概率模型(Mixed Gaussian ContinuousProbability Model)基础上,结合矢量量化技术和连续概率密度描述的特点,以混合共享的方式来描述各状态的概率分布。在中等词汇量的非特定人连续语音库测试集中,与原来的MGCPM模型相比,混合分量共享声学模型在保证识别率基本不下降的情况下,一定程度降低了模型规模和计算复杂度。此外,本文在基线系统模型基础上,对存在的发音变体进行定位和信息收集,通过有效进行训练语料中出现的发音变体的建模,旨在有效地增强现有模型对各种发音变体的鲁棒性。