论文部分内容阅读
随着近年来移动互联网的飞速发展,曾经试图取代计算机物理键盘的语音识别技术如今已经被成功的应用到各种移动终端上来,并且切切实实的在改变着当下人们的生活方式。然而,从对语音识别技术的研究开始,针对噪声环境下识别系统鲁棒性问题一直是人们研究的热点与难点,同时这也是一直以来限制语音识别技术普及的极大障碍。我们知道,在安静环境下,目前的语音识别系统均可以达到相当理想的识别准确率,然而,生活中无处不在的环境噪声以及信道卷积噪声等导致语音识别系统的性能急速下降。这主要是由于在噪声环境下,识别系统的输入语音信号特征参数与在安静环境下训练语音数据特征参数的不匹配所导致的。针对这一问题,本文主要对噪声环境下语音识别中特征提取进行研究,在前人的研究成果上,分别从信号空间抗噪方法与特征空间抗噪方法进行进一步的探索与实验,具体的工作与研究成果如下:首先,在本文的第一部分中通过多方面的调研对语音识别技术的发展历程与发展趋势进行归纳总结;结合目前噪声环境下语音识别技术中存在的问题,阐述课题的研究背景、目的与意义。鉴于特征提取属于语音识别系统中的前端部分,本文在第二部分首先对基于统计建模的自动语音识别进行介绍。接下来分别介绍了信号空间抗噪方法、特征空间抗噪方法以及模型空间抗噪方法在鲁棒性语音识别中的应用,并分别就信号空间抗噪算法中的谱减法、维纳滤波法与特征空间抗噪算法中的累积分布函数匹配方法、相对谱滤波、倒谱加权等方法进行原理性的介绍。在本文的第三部分,着重对信号空间抗噪方法中的经验模态分解(Empirical ModeDecomposition, EMD)算法进行介绍,首先阐述其在语音增强领域的应用,通过实验分析该方在语音信号处理领域的优越性,然后将其引入到语音识别领域,作为语音识别中特征提取的前端处理方案,并设计实现噪声环境下基于EMD的特征提取方法,通过实验结果分析得出结论:通过对含噪语音的分解与重构可以降低测试语音与训练语音特征参数的失配,从而在一定程度上提高了识别系统的鲁棒性。在文章的第四部分,首先分析介绍特征空间抗噪方法中倒谱均值规整(CepstralMean Normalization, CMN)以及倒谱方差规整(Cepstral Variance Normalization, CVN)等特征规整的实现方法,接下来从特征参数能量的角度对语音信号特征参数进行规整处理,在均值方差规整(Mean and Variance Normalization, MVN)的基础上,设计实现基于语音特征功率谱密度(Power Spectrum Density, PSD)规整的特征提取算法,通过在不同噪声环境下的对比实验结果进行分析得出结论:通过对含噪语音特征参数进行MVN与PSD规整处理,可以在特征级对与语音信号中的噪声成分进行抑制,降低不匹配程度,提高识别系统鲁棒性。同时,这种方法具有物理意义明确,时间复杂度极低的优势,不足之处体现在需要具备一定的先验知识,在复杂噪声环境下的语音识别系统中表现一般。最后,在文章的结尾,对文章的总体结构进行总结,给出文章研究成果中存在的问题与不足,并且这些问题与不足可以作为接下来的研究工作重点。