论文部分内容阅读
广播语音识别技术的研究是当前大词汇量连续语音研究的一个热点问题。广播电视新闻节目包括了说话人、方言口音、声道变化、声学环境的一系列声学的复杂特征,对于语音技术的实用化研究是一种理想的研究对象,对于语音技术走向实用化方面有着重大的意义。本文针对广播语音识别系统中的关键问题,在以下几个方面进行了广泛和深入的研究。
首先,在广播语音的音频数据切分方面,本文提出了一种基于检测熵变化趋势的变窗长音频特征跳变点检测方法。本文提出的方法在一个固定的数据窗内,通过检测窗内所有可能跳变点的熵的变化趋势来最终确定真实的音频跳变点。这种方法不同于传统的基于BIC准则的音频跳变点检测方法,避免了由于设定固定门限而导致引起漏检和数据积累带来的累积误差。在分类的过程中,用分组高斯方法代替传统的高斯混合模型(GMM)分类器,取得了更加准确的分类结果,实现了快速高效的基于矢量量化的多码本聚类算法。
其次,在广播语音识别系统的自适应训练方面,本文提出了一种基于子空间聚类的多层MLLR自适应算法,这种算法在子空间框架下对高斯模型进行聚类,基于目标驱动的原则,通过引入反馈机制,根据自适应数据的似然概率的增加动态的决定自适应变换类的数目。通过采取子空间聚类的策略,大大减少了待估计参数的数目。实验结果表明,本方法在自适应数据比较少的情况下,有着比传统基于自适应回归树算法更高的识别率。在无监督自适应方面,本文对可信度机制做了一些探讨,通过合理的引入可信度机制可以提高系统无监督自适应的性能。
最后,在广播语音的声学建模方面,针对现有对角方差建模的缺陷与不足,在空间旋转变换的理论基础上,结合部分方差共享(STC)的模型补偿方法,本文提出一种基于共享状态空间旋转变换的相关特征建模方法(TyingSSR)。通过状态空间旋转变换方法(SSR),在变换后的新的特征空间实现解相关的目的,在新的不相关的空间采用对角方差建模技术对声学特征进行精确建模。以似然概率损失最小为原则,对变换矩阵进行合并共享,通过BIC准则方法确定最终的合并类数,最后用部分方差共享技术对变换矩阵的参数进行模型补偿和重估。避免了由于变换矩阵过多,在识别解码阶段增加系统的存储空间和运算量的增加。