论文部分内容阅读
翘曲离散傅立叶变换(Warped Discrete Fourier Transform,WDFT)是本世纪初才刚刚开始受到重视的。它提供了在不增加采样数目N的情况下,对任意选定的频谱区域增加频谱精度的一种良好选择。它可以通过选择适当阶次的全通翘曲函数并调整其翘曲参数从而得到我们选定的任何确切点上的频谱采样值,因而可作为数字信号处理(Digital Signal Processing,DSP)中非常有用的工具。 将WDFT与被分析信号的频率特性相结合,通过选择全通翘曲函数及其翘曲参数,可以将待处理信号的重点频段的频谱精度大幅提高,又能保持信号非重点频段的频谱精度的基本要求。WDFT对某些特定信号,特别是语音信号的分析有相当重要的作用。本文在深入分析WDFT的基本理论和快速算法之后,结合语音信号的特点,提出了一些基于WDFT的语音信号处理的新算法,这些新算法的分析效率较传统算法有较大的提高,并且计算次数减少,计算复杂度降低。WDFT是DSP领域极为重要的新技术,本文对WDFT的理论与算法以及语音处理新方法进行了较为系统的研究,其主要内容及成果如下: 1.在分析了HMM模型及常用语音特征的基础上,提出了一种基于WDFT的语音识别新算法,并给出了新算法的实现流程。这种新算法是通过在频域中非均匀地抽取频谱来获得PLP语音特征的。为更好地拟合频域上非均匀分布的滤波器组(Filter Bank,FB),我们筛选出合适的翘曲参数,提高了语音信号低频段的频谱精度,使之更符合人耳的听觉特征。实验表明,这种新算法比MFCC算法更适用于语音识别中比较困难的易混淆音的识别,从而能达到更高的识别率。 2.提出了一种基于WDFT的改进MFCC特征提取新算法,即WDFT-WFBA-MFCC算法。我们知道,加权滤波器组分析(Weighted Filter Bank Analysis,WFBA)可以提升Mel滤波器组输出能量的差分分布,当采用第Ⅱ型加权函数时,不需要预先决定模糊因子F,因而其计算复杂度更低。考虑在一阶全通翘曲函数中适当选取翘曲参数,便可以很好地拟合非均匀分布的FB,大大提高语音信号低频部分的频谱分辨率,又不丢失高频部分的信息,更符合人耳的生理心理特征。将本文所提算法应用到TIMIT连续语音数据库中DRI音素的识别,得到的结果表明,新算法较传统的MFCC算法有更高的识别率。 3.计算听觉场景分析(Computational Auditory Scene Analysis,CASA)在声音信号处理领域潜在的应用价值已引起越来越多的关注。本文在分析了主要的