论文部分内容阅读
本论文的研究主题是语音识别的前端鲁棒性问题。语音识别是为了能让计算机明白人的自然语言,经过儿十年的努力,现在已经发展出了不少比较成熟的系统,这些系统在实验室环境下(比较理想的环境下),语音识别的识别率(无论是大词汇量连续语音识别,还是是数字串或者命令词的识别)取得了很高的识别率。然而,在实际环境中,因为环境噪声的存在以及信道的影响,说话人情绪,状态等因素的影响,使得识别率在实际环境下急剧下降,简直到了不能容忍的地步。综合目前的各种情况,语音识别如果要大规模走向实用,前端鲁棒性的突破是一个关键因素。本文尝试从不同方面,对语音识别的前端鲁棒性问题的研究做了一些有益的探索。
语音识别的噪声鲁棒性方法从大的方面可以分为前端方法和后端方法2个方面。前端方法主要着眼于消除噪声对语音特征的影响,或者提取具有抗噪声性能的语音特征,后端方法主要着眼于使得已经训练得到的系统具有更大的适应性和宽容性,或者能够适时调整系统模型,使得模型能够动态跟踪不断变换的环境,取得最好的识别效果。
文章首先对语音识别的历史,现状,面临的难题以及实际应用等方面的情况进行了比较翔实地叙述。
鲁棒性问题方面的方法很多很杂,每一种方法都有它的的特点和适用范围,而且至今缺乏一种能对所有鲁棒性问题都比较有效的方法,针对这种情况,论文在第二章对鲁棒性前端问题进行了比较全面的归纳和总结。
论文在第三章用LDA方法在Aurora2数据库上面进行了提高噪声鲁棒性和降低运算量方面的应用。事实上,如果一个语音识别系统要取得很好的识别效果,一般来说都要包括区分性训练的成分,而LDA方法能满足这种要求。
第四章详细讲述了一种新的前端特征提取算法,即翘曲离散傅里叶变换在前端特征提取中的应用,该方法模拟了人的耳朵对高频分量和低频分量具有不同的分辨率这个特点。在第五章里面,针对实际的工程使用需要,对一些性能比较好的前端方法尤其是双高斯方法进行了他们的on-line方法实现。
第六章介绍了经典的儿种语音特征规整方法在Aurora2数据库上面的测试情况。论文第七章首先简要介绍了ETSI颁布的分布式语音识别(DSR)前端标准,并在此基础上进行了维纳滤波和特征规整方法结合的实验。