论文部分内容阅读
声学模型,是语音识别领域的核心研究方向之一。段模型放宽了隐马尔科夫模型(Hidden Markov Model,HMM)模型在给定状态时语音观测矢量相互独立的假设,获得更精确的声学模型。然而,基于随机段模型的大词汇量连续语音识别系统,虽然有更优于HMM系统的识别性能,却难以达到较快的识别速度,成为制约其应用的关键问题。本文针对段模型解码算法及其语音识别系统和关键词检测系统,进行的主要工作有:
·实现了基于声韵母预分类的段模型提速算法。该方法是语音知识在解码中的初步应用。首先,对语音信号所属声韵母类别作出快速判断,实现了语音段上相应声学模型解码空间的压缩,从而有效地提高了解码速度。在不影响识别正确率的同时,识别系统的识别时间减少了51.8%。
·完成了语音中声带不振动界标点的检测和定位,并将其作为搜索过程启发点,引入段模型解码算法中。声带不振动界标点检测算法,能够检测出语音信号中声带停止或开始自由振动的时间点。实验表明,汉语中87.4%的塞音及98.9%的擦音能够通过声带不振动语音段的检测工作从语音中分离出来。
·在对语音中发音稳定段的分析和检测的基础上,实现了可变步长的段模型解码方法。发音稳定段,是指与发音动作平稳时段对应的语音信号段。在声学模型解码过程中,跳过起点或终点落在发音稳定段中的待解码语音段,从而提高了解码速度。在识别系统中,识别时间缩短了23.4%,同时声韵母识别错误率相对降低了2.3%;在关键词检测系统中,声韵母网络的构建时间缩短了32.5%,同时关键词漏检率相对降低了15.4%,虚警率相对下降了15.7%。
·实现了采用语音预分类及特定区域校验的关键词检测系统。首先,关键词预检测方法快选出语音中可能包含关键词的语音段;随后段模型在这些语音段上计算其对应关键词的置信度得分,得到关键词检测结果。