论文部分内容阅读
连续数目字语音识别是当今语音识别领域的一个重要研究方向。本文简述了汉语数目字语音识别的发展与现状,分析了汉语数目字语音识别的困难所在,对连续数目字语音识别方法进行了研究。选取语音识别系统的特征参数时,对LPC 倒谱参数和MFCC 参数进行了比较,选择能够反映人的听觉对语音感知特性的MFCC 参数作为语音的特征参数,同时考虑到特征参数各维分量对于识别性能的贡献,对各维分量进行了加权处理。实验证明,基于MFCC 的特征参数比LPC 倒谱参数具有更佳的抗噪性。本文还讨论了在语音信号的声学处理环节提高语音识别鲁棒性的问题和方法。利用语音声学信号的频谱分析来寻找连续语音信号帧的分割点,再结合音素分割方法,成功的提高了分割精度。实验表明mel 标度频谱法比传统的以信号的短时能量,过零率等简单特征作为判决特征参数的语音端点检测方法更适合语音的分割。实验结果表明,这种算法对于清音和噪声,以及元音和辅音的区分都有很好的识别性能。系统采用VQ/HMM 模型作为语音识别的声学模型。对搜索算法,识别算法进行了研究,通过对隐马尔柯夫模型输入语音时间序列的矢量量化,有针对性的对搜索算法进行了简化。从而使汉语连续数目字语音识别的系统设计与实现的难度得到了降低。实验结果证明:①系统识别速度快,对于硬件的要求低。能在PC 机上实现处理。②对于平稳的孤立语音,该方法有较高的识别率。③对于连续数目字语音识别,系统的性能并没有急剧下降。