论文部分内容阅读
近年来,语音识别技术取得了突破性的进展,开始由实验室走向人们的日常生活中。语音拨号、语音上网等人机语音交互手段正在被越来越多的人认识和运用,语音识别展现了巨大的市场价值和广泛的应用前景。本文针对“0”到“9”十个阿拉伯数字的汉语发音,在总结前人研究成果的基础上,为提高系统的识别性能,实现了一个汉语连续数字语音识别系统。本文首先分析了语音识别技术的发展现状及未来的发展趋势,揭示了语音识别现阶段存在的难题及拟解决的办法。在此基础上,阐述了语音识别的原理,重点介绍了语音信号产生的声学模型。在语音信号端点检测部分,提出了改进的基于MFCC相似度(MFCCS)的端点检测算法,有效地提高了系统的抗噪声能力,并给出了实验仿真结果和分析,实验证明,该算法在低信噪比下能够得到良好的端点检测效果。在语音信号的特征参数提取部分,详细介绍了线性预测倒谱参数(LPCC)和Mel频率倒谱参数(MFCC)的提取过程。提出将短时能量和MFCC加权混合形成新的特征参数EMFCC,并以此作为语音训练和识别的特征参数。实验表明,EMFCC比MFCC具有更好的系统识别性能。随后对隐马尔可夫模型(HMM)及其在语音识别中的应用进行了深入的研究。对HMM需要解决的评估问题、解码问题以及参数优化问题进行了详细分析,并介绍了解决问题用到的前向后向算法、Viterbi算法和Baum-Welch重估算法。最后,给出MATLAB平台上的实验仿真结果和分析,包括语音信号的预处理、连续语音端点检测、特征参数提取、HMM训练和识别。