论文部分内容阅读
【摘要】将小波变换的多分辨率特性用于改进Mel频率倒谱系数MFCC的前端处理中,给出了一种新的语音特征参数——小波MFCC。其特点在于采用小波变换、分层FFT和频率合成代替原来MFCC中的FFT部分,使频谱分辨率提高了一倍。试验证明,小波MFCC特征参数在较大词汇量情况下,其识别率优于MFCC特征参数的结果。
【关键词】小波分析;语音识别;MFCC
Abstract:The multi resolution characteristic of wavelet is used to improve the front end processing of MFCC.So,a new feature parameter wavelet MFCC is presented in this paper.It uses wavelet transform,multi degree FFT and frequency synthesis to replace original FFT of MFCC,and increases spectrum resolution by 2.The experiments demonstrate that robustness and recognition rate of wavelet MFCC feature are better than one of MFCCs in large vocabulary.
Key words:wavelet transformation;speech recognition;MFCC
1.引言
在语音识别和说话人识别中,基于Mel频率的倒谱系数MFCC(mel frequency cepstrum cofficient)是将人耳的听觉感知特性和语音的产生机制相结合,与其他特征参数相比较,体现了较优越的性能,在无噪声情况下能得到较高的识别率,因此是目前使用最广泛的特征参数。但是,随着识别词汇量的增大,这种参数的识别性能急剧地下降。说明这种特征不适合大词汇量识别。
近年来,小波变换被广泛应用于语音处理中,主要包括:利用小波变换对听觉感知系统进行模拟,对语音信号去噪,进行清、浊音判断。因为小波变换的局部化性质,可以在很小的分帧长下对语音信号仍具有较高的频谱分辨率,本文将小波变换技术引入到MFCC特征参数中,来进行语音识别系统的特征提取,可以提高对辅音区的识别效果。因此,用WMFCC特征参数作为隐马尔可夫(HMM)识别网络的输入信号,识别效果明显提高。
2.MFCC特征参数
图1所示为MFCC特征参数的计算流程图。
图1 MFCC特征参数的提取
人类听觉系统对声音高低的感知与实际频率是一种非线性映射关系[1],而与Mel频率成线性关系。根据人的听觉机理来进行Mel滤波器组的频带划分,模拟不同频率下人耳对语音的感知特性。实际频率和Mel频率的转换关系用公式(1)表示。
其中Fmel是感知频率,单位美(Mel),F是以HZ为单位的实际频率。将语音的实际频率变换到感知频率中,能更好地模拟人的听觉处理过程。
首先,将输入语音信号进行预处理,包括预加重、加窗分帧,然后作快速傅立叶变换,获得频谱分布信息;
其次,将频域信号通过按Mel频率坐标分布的三角滤波器组。
每个Mel三角带通滤波器的传递函数为:
3.基于小波分析特征参数提取
3.1 小波理论在语音识别应用基础
传统的语音信号频谱是采用固定窗的傅立叶变换,在短时平稳的假设基础上得到的。
傅立叶变换能够对窗内平稳信号(整个窗长度内信号特性相同)提供精确的频率分量。由于语音信号是短时平稳信号,由不确定性原理[2]可知,基于短时平稳假设的固定窗傅立叶变换将会模糊语音的细节特征,从而引起一些非常重要的信息丢失。小波理论是一种非平稳信号的分析方法,采用多分辨分析的思想,非均匀的划分时——频空间,能够有效地从信号中提取信息。具有时域局部性和频域局部性,并且其时频窗口可以根据不同频率自适应地调节,从而能精确地反映非平稳信号的瞬间变化。将小波变换引入语音信号的特征提取中,系统的识别性能能够得到一定的改善。
与傅立叶变换类似,小波变换是将信号s(t)分解为若干基函数的线性组合。其基函数是。如果是正交小波基,那么信号可分解成小波基的组合:
其中j为不同分辨率下标,j越大,表示分析的分辨率越低;j0表示最低分辨率;k为时间局部性下标;wjk代表信号在2jk时刻附近,2-jf0频率附近的值。尺度系数uk代表信号在2j0k附近平均值。随着分辨率的变化,能够在不同分辨率上得到小波细节,也就是高分辨的小波系数用来表示语音信号的快变分量,低分辨的小波系数用来表示语音信号的慢变分量。
3.2 基于离散小波变换的征参数提取
要将小波变换应用在语音识别中,关键是将小波系数归整成维数不大的高效特征参数[3]。本文把傅里叶变换用离散小波变换代替,将小波变换引入到特征参数提取过程中。WMFCC特征参数提取框图如图2所示。与MFCC相比,其主要不同在其前端处理。WMFCC的特点在于采用小波变换、分层FFT和频率合成。
图2 WMFCC特征参数提取方框图
具体实现方法如下:
(1)本文试验中,先把语音信号用Matlab中的DB3小波进行预处理变换,256个样点为一帧,帧移为128个样点,进行6层小波变换,得到的小波系数为7层。从第1层到第6层,语音信号的频段逐次升高,得到个数分别为12、12、20、36、67、130、249的6层小波系数。
(2)将分层后的小波系数做FFT变换,获得其频率响应。把上述各层小波系数补零,得到2的整数次方,进行快速FFT变换。经FFT变换后,得到样点数分别为:16、16、32、64、128、256、512的7层小波系数。
(3)频率合成,按照频率高低把各层小波系数频率响应组合成完整的频谱(频谱最高位对应第1层小波系数),最终得到有1024个样点的频谱。因为以便进行快速傅里叶变换,在小波系数后补零,所以频谱分辨率和Mel滤波器组的分辨率分别比MFCC提高了一倍。
表1 MFCC和WMFCC特征的识别结果比较(%)
4.仿真结果与分析
本文采用隐马尔科夫(HMM)网络模型对孤立词、非特定人语音信号进行模式识别。系统的字表依次为10词、20词、30词、40词、50词,每字采集60次发音,共15人,每人发音4次,前10人的发音作为训练集,其余5人发音作为测试集。表1是仿真试验结果。
由表1分析得到:(1)通过对表中所有识别率的对比,两种特征的识别率都在90%以上,WMFCC的识别率基本在95%左右,明显高于MFCC;(2)从上到下看结果,随词汇量增大,两种特征参数的识别率差值最高达到2.49,并且WMFCC特征的识别率下降幅度较小,从而说明了在较大词汇量识别中,WMFCC有更好的识别效果。
本文在MFCC特征參数提取的基础上引入了小波分析技术,得到了WMFCC语音识别特征参数。通过仿真试验表明,在较大词汇量情况下,有更好的识别结果。
参考文献
[1]赵力.语音信号处理[M].北京:机械工业出版社,2003.
[2]张震,王化清.语音信号特征提取中Mel倒谱系MFCC的改进算法[J].计算机工程与应用,2008,44(22).
[3]俸云,景新幸,叶懋.MFCC特征改进算法在语音识别中的应用[J].计算机工程与科学,2009,31(12):146-148.
[4]赵姝彦,张雪英.基于ZCPA和DHMM的孤立词语音识别系统[J].太原理工大学学报,2005,3(36):246-249.
[5]Loizou P C.NOIZEUS:a Noisy Speech Corpus for Evaluation of Speech Enhancement Algorithms.www.utdallas.edu/~loizou/speech/noizeus/,2011-4-23.
【关键词】小波分析;语音识别;MFCC
Abstract:The multi resolution characteristic of wavelet is used to improve the front end processing of MFCC.So,a new feature parameter wavelet MFCC is presented in this paper.It uses wavelet transform,multi degree FFT and frequency synthesis to replace original FFT of MFCC,and increases spectrum resolution by 2.The experiments demonstrate that robustness and recognition rate of wavelet MFCC feature are better than one of MFCCs in large vocabulary.
Key words:wavelet transformation;speech recognition;MFCC
1.引言
在语音识别和说话人识别中,基于Mel频率的倒谱系数MFCC(mel frequency cepstrum cofficient)是将人耳的听觉感知特性和语音的产生机制相结合,与其他特征参数相比较,体现了较优越的性能,在无噪声情况下能得到较高的识别率,因此是目前使用最广泛的特征参数。但是,随着识别词汇量的增大,这种参数的识别性能急剧地下降。说明这种特征不适合大词汇量识别。
近年来,小波变换被广泛应用于语音处理中,主要包括:利用小波变换对听觉感知系统进行模拟,对语音信号去噪,进行清、浊音判断。因为小波变换的局部化性质,可以在很小的分帧长下对语音信号仍具有较高的频谱分辨率,本文将小波变换技术引入到MFCC特征参数中,来进行语音识别系统的特征提取,可以提高对辅音区的识别效果。因此,用WMFCC特征参数作为隐马尔可夫(HMM)识别网络的输入信号,识别效果明显提高。
2.MFCC特征参数
图1所示为MFCC特征参数的计算流程图。
图1 MFCC特征参数的提取
人类听觉系统对声音高低的感知与实际频率是一种非线性映射关系[1],而与Mel频率成线性关系。根据人的听觉机理来进行Mel滤波器组的频带划分,模拟不同频率下人耳对语音的感知特性。实际频率和Mel频率的转换关系用公式(1)表示。
其中Fmel是感知频率,单位美(Mel),F是以HZ为单位的实际频率。将语音的实际频率变换到感知频率中,能更好地模拟人的听觉处理过程。
首先,将输入语音信号进行预处理,包括预加重、加窗分帧,然后作快速傅立叶变换,获得频谱分布信息;
其次,将频域信号通过按Mel频率坐标分布的三角滤波器组。
每个Mel三角带通滤波器的传递函数为:
3.基于小波分析特征参数提取
3.1 小波理论在语音识别应用基础
传统的语音信号频谱是采用固定窗的傅立叶变换,在短时平稳的假设基础上得到的。
傅立叶变换能够对窗内平稳信号(整个窗长度内信号特性相同)提供精确的频率分量。由于语音信号是短时平稳信号,由不确定性原理[2]可知,基于短时平稳假设的固定窗傅立叶变换将会模糊语音的细节特征,从而引起一些非常重要的信息丢失。小波理论是一种非平稳信号的分析方法,采用多分辨分析的思想,非均匀的划分时——频空间,能够有效地从信号中提取信息。具有时域局部性和频域局部性,并且其时频窗口可以根据不同频率自适应地调节,从而能精确地反映非平稳信号的瞬间变化。将小波变换引入语音信号的特征提取中,系统的识别性能能够得到一定的改善。
与傅立叶变换类似,小波变换是将信号s(t)分解为若干基函数的线性组合。其基函数是。如果是正交小波基,那么信号可分解成小波基的组合:
其中j为不同分辨率下标,j越大,表示分析的分辨率越低;j0表示最低分辨率;k为时间局部性下标;wjk代表信号在2jk时刻附近,2-jf0频率附近的值。尺度系数uk代表信号在2j0k附近平均值。随着分辨率的变化,能够在不同分辨率上得到小波细节,也就是高分辨的小波系数用来表示语音信号的快变分量,低分辨的小波系数用来表示语音信号的慢变分量。
3.2 基于离散小波变换的征参数提取
要将小波变换应用在语音识别中,关键是将小波系数归整成维数不大的高效特征参数[3]。本文把傅里叶变换用离散小波变换代替,将小波变换引入到特征参数提取过程中。WMFCC特征参数提取框图如图2所示。与MFCC相比,其主要不同在其前端处理。WMFCC的特点在于采用小波变换、分层FFT和频率合成。
图2 WMFCC特征参数提取方框图
具体实现方法如下:
(1)本文试验中,先把语音信号用Matlab中的DB3小波进行预处理变换,256个样点为一帧,帧移为128个样点,进行6层小波变换,得到的小波系数为7层。从第1层到第6层,语音信号的频段逐次升高,得到个数分别为12、12、20、36、67、130、249的6层小波系数。
(2)将分层后的小波系数做FFT变换,获得其频率响应。把上述各层小波系数补零,得到2的整数次方,进行快速FFT变换。经FFT变换后,得到样点数分别为:16、16、32、64、128、256、512的7层小波系数。
(3)频率合成,按照频率高低把各层小波系数频率响应组合成完整的频谱(频谱最高位对应第1层小波系数),最终得到有1024个样点的频谱。因为以便进行快速傅里叶变换,在小波系数后补零,所以频谱分辨率和Mel滤波器组的分辨率分别比MFCC提高了一倍。
表1 MFCC和WMFCC特征的识别结果比较(%)
4.仿真结果与分析
本文采用隐马尔科夫(HMM)网络模型对孤立词、非特定人语音信号进行模式识别。系统的字表依次为10词、20词、30词、40词、50词,每字采集60次发音,共15人,每人发音4次,前10人的发音作为训练集,其余5人发音作为测试集。表1是仿真试验结果。
由表1分析得到:(1)通过对表中所有识别率的对比,两种特征的识别率都在90%以上,WMFCC的识别率基本在95%左右,明显高于MFCC;(2)从上到下看结果,随词汇量增大,两种特征参数的识别率差值最高达到2.49,并且WMFCC特征的识别率下降幅度较小,从而说明了在较大词汇量识别中,WMFCC有更好的识别效果。
本文在MFCC特征參数提取的基础上引入了小波分析技术,得到了WMFCC语音识别特征参数。通过仿真试验表明,在较大词汇量情况下,有更好的识别结果。
参考文献
[1]赵力.语音信号处理[M].北京:机械工业出版社,2003.
[2]张震,王化清.语音信号特征提取中Mel倒谱系MFCC的改进算法[J].计算机工程与应用,2008,44(22).
[3]俸云,景新幸,叶懋.MFCC特征改进算法在语音识别中的应用[J].计算机工程与科学,2009,31(12):146-148.
[4]赵姝彦,张雪英.基于ZCPA和DHMM的孤立词语音识别系统[J].太原理工大学学报,2005,3(36):246-249.
[5]Loizou P C.NOIZEUS:a Noisy Speech Corpus for Evaluation of Speech Enhancement Algorithms.www.utdallas.edu/~loizou/speech/noizeus/,2011-4-23.