论文部分内容阅读
当前在纯净环境下采用朗读方式的语音识别系统识别性能已经达到一个相当高的程度,在这种情况下,语音识别走向实际应用必须解决对噪声环境的鲁棒性问题和对说话人本身的鲁棒性问题。本文的研究工作属于前一部分,主要针对加性噪声环境进行鲁棒性研究,提出合适的噪声消除算法,并把这些算法应用到语音识别系统中,提高识别系统在噪声环境下的鲁棒性。
本文研究工作主要集中在功率谱域,频域和对数谱域,分析和研究采用混合模型进行噪声消除的算法。论文主要工作和创新点如下:
●在功率谱域,提出采用混合指数模型描述语音周期图分布,并在这个模型基础上构建了最小均方误差估计器实现对纯净语音能量谱密度的估计。
●在复频域,提出采用高斯混合模型描述语音频谱分布,给出了语音频谱高斯混合模型构建算法。在这个语音谱高斯混合模型的基础上,本文分别构建了最小均方误差短时谱,幅值平方谱,短时谱幅值和对数谱幅值估计器。此外,本文在最大似然框架下提出了基于这个高斯混合模型的噪声估计算法。
●对数谱域下实现的对语音特征的补偿是本文最重要的部分。本文在对数谱域的工作包括以下几点:首先提出采用高阶泰勒级数展开实现对对数谱域非线性环境函数的近似以寻求最合适的补偿形式,同时考虑对数谱高斯混合模型的建模精度问题,并且把对能量补偿引入进来,提出采用类似谱减的方法补偿语音能量。此外,本文还提出了把对数能量补偿和对数谱补偿结合在一起进行的方法。
由大词汇量连续语音识别的结果可以看出,频域的算法效果比较有限,这是因为这些算法主要是为了增强语音信号本身提出的,性能的提高主要反映在增强效果和小词汇量识别方面。对数谱补偿算法对语音识别系统抗噪声的效果相当明显,因为这是直接对语音特征本身的补偿。本文对对数谱补偿进行了详尽的分析和讨论,大词汇量语音识别的结果远高于噪声环境匹配情况下的识别性能,而后者曾被认为是噪声环境下语音识别性能的上限。