论文部分内容阅读
近年来,语音识别技术不断发展,系统识别率和识别性能不断提高,得到了越来越广泛的应用,其中孤立词语音识别技术,以其对计算量存储量的低要求和高灵活性,在诸如自动控制和智能家居等领域,如仪器设备、机器人、车辆驾驶和家电的操控等方面有着良好的应用前景。本文重点对非特定人孤立词语音识别的预处理、特征参数提取、模式识别三个阶段展开研究,主要完成了以下的工作:(1)在对语音识别的相关原理进行了分析的基础之上,以英语语音识别为例,在端点检测的研究过程中,发现目前的检测算法存在不足,对一些多音节词的判断并不是很精确,为以后的识别带来了困难,为此,提出了向前多次搜索的过渡区检测算法,加入过渡区,设置最大过渡区语音帧数,并通过实验验证了过渡区检测算法的有效性。(2)在特征提取的研究中,比较了线性预测倒谱系数(Linear Predictive Cepstral Coefficients,LPCC)和美尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)的性能,选择MFCC系数作为本文的特征参数。(3)识别模型方面,探讨了动态时间规整(Dynamic Time Warping,DTW)、矢量量化(Vector Quantization,VQ)、隐马尔可夫模型(Hidden Markov Model,HMM)以及人工神经网络模型(Artificial Neural Network,ANN),相关的对比研究表明基于DTW的语音识别算法更适合应用于非特定人的孤立词识别。目前的DTW算法识别时要求待识别语音和模板端点对齐,需要对待识别语音进行非线性变换,增大了语音信号的失真度,影响了最终的识别率,为解决这个问题,本文提出了一种解除端点对齐限制的DTW算法,优化了搜索路径的约束条件,通过合理划分搜索范围,避免了因非线性变换引起的信号改变,并对改进前后的算法进行了分析。(4)设计了非特定人孤立词语音识别系统的软件部分,进行了相关的仿真实验验证工作,给出了改进前后系统的识别率和识别效率等实验结果,并进行了比较和分析。另外在不同信噪比下,应用改进之后的端点检测算法和传统的端点检测算法对待测语音进行识别实验,验证了改进的端点检测算法具有更好的抗噪性。