论文部分内容阅读
本文从应用最广泛的时频变换入手,采用传统傅立叶变换基来对语音信号进行分析和处理。在此基础上深入分析了翘曲傅立叶变换(WarpedDiscreteFourierTransform,WDFT),使之与被分析的语音信号的频率特性相结合,通过选择翘曲参数,既可以使待处理信号重点频段的频谱精度大幅提高,又可以保持信号非重点频段的频谱精度的基本要求。并且充分利用语音信号在Bark域和Mel域上的声学特性,提出了一些基于变换域的语音信号处理的新算法。
1.HMM模型是语音识别中非常有效的工具,它可以通过状态的划分来描述语音中准平稳段,其状态所对应的语音单元可以从句子到音素。本文在重点介绍了HMM模型的基本理论和语音特征PLP(PerceptuallybasedLinearPrediction)之后,结合WDFT对语音信号分析所具有的突出优势,提出了一种基于WDFT的语音识别新算法,并给出了新算法的实现流程。这种新算法是通过在频域中非均匀地抽取频谱来获得PLP语音特征的。为更好地拟合频域上非均匀分布的Bark滤波器组(FilterBark,FB),可以筛选出合适的翘曲参数,提高语音信号低频段的频率精度,使之更符合人耳的听觉特征。这种新算法比传统PLP算法更适用于语音识别中比较困难的易混淆音的识别,从而能达到更高的识别率。
2.在对PLP特征作出改进之后,本文又提出了一种基于WDFT的语音识别新算法,即WDFT-WFBA-MFCC算法。考虑在一阶全通翘曲函数中选取适当的翘曲参数,便可以很好地拟合MFCC算法中非均匀分布的Mel滤波器组,大大提高语音信号低频部分的频谱分辨率,又不丢失高频部分的信息,更符合人耳的生理心理特征,所以运用WDFT到MFCC算法中去改进频谱选择。同时为提升Mel三角滤波器的能量差分度,在取得各个滤波器的对数能量后再运用一组加权滤波器来进行加权滤波器组分析(WeightedFilterBankAnalysis,WFBA)。将本文所提算法应用到TIMIT连续语音数据库中DR1音素的识别,得到的结果表明:新算法较传统的MFCC算法有更高的识别率。若新算法与高效的WDFT快速算法相结合,可在保持较高识别率的同时,大大降低计算复杂度。
3.在研究了基于变换域在语音识别中的改进和应用之后,本文又通过分析语音相位在Bark域的听觉特性,把这种听觉特性运用到基于正弦模型语音编码合成元音的相位处理中,只通过幅频信息和少量的原始相位信息来合成重建语音信号,实验结果表明这种方法能改善合成信号中帧与帧之间的不连续性,使帧与帧之间能平滑过渡,增加语音自然度,提高语音的合成质量。