基于小波变换的语音特征参数提取

来源 :电子世界 | 被引量 : 0次 | 上传用户:yj700702
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘要】将小波变换的多分辨率特性用于改进Mel频率倒谱系数MFCC的前端处理中,给出了一种新的语音特征参数——小波MFCC。其特点在于采用小波变换、分层FFT和频率合成代替原来MFCC中的FFT部分,使频谱分辨率提高了一倍。试验证明,小波MFCC特征参数在较大词汇量情况下,其识别率优于MFCC特征参数的结果。
  【关键词】小波分析;语音识别;MFCC
  Abstract:The multi resolution characteristic of wavelet is used to improve the front end processing of MFCC.So,a new feature parameter wavelet MFCC is presented in this paper.It uses wavelet transform,multi degree FFT and frequency synthesis to replace original FFT of MFCC,and increases spectrum resolution by 2.The experiments demonstrate that robustness and recognition rate of wavelet MFCC feature are better than one of MFCCs in large vocabulary.
  Key words:wavelet transformation;speech recognition;MFCC
  1.引言
  在语音识别和说话人识别中,基于Mel频率的倒谱系数MFCC(mel frequency cepstrum cofficient)是将人耳的听觉感知特性和语音的产生机制相结合,与其他特征参数相比较,体现了较优越的性能,在无噪声情况下能得到较高的识别率,因此是目前使用最广泛的特征参数。但是,随着识别词汇量的增大,这种参数的识别性能急剧地下降。说明这种特征不适合大词汇量识别。
  近年来,小波变换被广泛应用于语音处理中,主要包括:利用小波变换对听觉感知系统进行模拟,对语音信号去噪,进行清、浊音判断。因为小波变换的局部化性质,可以在很小的分帧长下对语音信号仍具有较高的频谱分辨率,本文将小波变换技术引入到MFCC特征参数中,来进行语音识别系统的特征提取,可以提高对辅音区的识别效果。因此,用WMFCC特征参数作为隐马尔可夫(HMM)识别网络的输入信号,识别效果明显提高。
  2.MFCC特征参数
  图1所示为MFCC特征参数的计算流程图。
  图1 MFCC特征参数的提取
  人类听觉系统对声音高低的感知与实际频率是一种非线性映射关系[1],而与Mel频率成线性关系。根据人的听觉机理来进行Mel滤波器组的频带划分,模拟不同频率下人耳对语音的感知特性。实际频率和Mel频率的转换关系用公式(1)表示。
  其中Fmel是感知频率,单位美(Mel),F是以HZ为单位的实际频率。将语音的实际频率变换到感知频率中,能更好地模拟人的听觉处理过程。
  首先,将输入语音信号进行预处理,包括预加重、加窗分帧,然后作快速傅立叶变换,获得频谱分布信息;
  其次,将频域信号通过按Mel频率坐标分布的三角滤波器组。
  每个Mel三角带通滤波器的传递函数为:
  3.基于小波分析特征参数提取
  3.1 小波理论在语音识别应用基础
  传统的语音信号频谱是采用固定窗的傅立叶变换,在短时平稳的假设基础上得到的。
  傅立叶变换能够对窗内平稳信号(整个窗长度内信号特性相同)提供精确的频率分量。由于语音信号是短时平稳信号,由不确定性原理[2]可知,基于短时平稳假设的固定窗傅立叶变换将会模糊语音的细节特征,从而引起一些非常重要的信息丢失。小波理论是一种非平稳信号的分析方法,采用多分辨分析的思想,非均匀的划分时——频空间,能够有效地从信号中提取信息。具有时域局部性和频域局部性,并且其时频窗口可以根据不同频率自适应地调节,从而能精确地反映非平稳信号的瞬间变化。将小波变换引入语音信号的特征提取中,系统的识别性能能够得到一定的改善。
  与傅立叶变换类似,小波变换是将信号s(t)分解为若干基函数的线性组合。其基函数是。如果是正交小波基,那么信号可分解成小波基的组合:
  其中j为不同分辨率下标,j越大,表示分析的分辨率越低;j0表示最低分辨率;k为时间局部性下标;wjk代表信号在2jk时刻附近,2-jf0频率附近的值。尺度系数uk代表信号在2j0k附近平均值。随着分辨率的变化,能够在不同分辨率上得到小波细节,也就是高分辨的小波系数用来表示语音信号的快变分量,低分辨的小波系数用来表示语音信号的慢变分量。
  3.2 基于离散小波变换的征参数提取
  要将小波变换应用在语音识别中,关键是将小波系数归整成维数不大的高效特征参数[3]。本文把傅里叶变换用离散小波变换代替,将小波变换引入到特征参数提取过程中。WMFCC特征参数提取框图如图2所示。与MFCC相比,其主要不同在其前端处理。WMFCC的特点在于采用小波变换、分层FFT和频率合成。
  图2 WMFCC特征参数提取方框图
  具体实现方法如下:
  (1)本文试验中,先把语音信号用Matlab中的DB3小波进行预处理变换,256个样点为一帧,帧移为128个样点,进行6层小波变换,得到的小波系数为7层。从第1层到第6层,语音信号的频段逐次升高,得到个数分别为12、12、20、36、67、130、249的6层小波系数。
  (2)将分层后的小波系数做FFT变换,获得其频率响应。把上述各层小波系数补零,得到2的整数次方,进行快速FFT变换。经FFT变换后,得到样点数分别为:16、16、32、64、128、256、512的7层小波系数。
  (3)频率合成,按照频率高低把各层小波系数频率响应组合成完整的频谱(频谱最高位对应第1层小波系数),最终得到有1024个样点的频谱。因为以便进行快速傅里叶变换,在小波系数后补零,所以频谱分辨率和Mel滤波器组的分辨率分别比MFCC提高了一倍。
  表1 MFCC和WMFCC特征的识别结果比较(%)
  4.仿真结果与分析
  本文采用隐马尔科夫(HMM)网络模型对孤立词、非特定人语音信号进行模式识别。系统的字表依次为10词、20词、30词、40词、50词,每字采集60次发音,共15人,每人发音4次,前10人的发音作为训练集,其余5人发音作为测试集。表1是仿真试验结果。
  由表1分析得到:(1)通过对表中所有识别率的对比,两种特征的识别率都在90%以上,WMFCC的识别率基本在95%左右,明显高于MFCC;(2)从上到下看结果,随词汇量增大,两种特征参数的识别率差值最高达到2.49,并且WMFCC特征的识别率下降幅度较小,从而说明了在较大词汇量识别中,WMFCC有更好的识别效果。
  本文在MFCC特征參数提取的基础上引入了小波分析技术,得到了WMFCC语音识别特征参数。通过仿真试验表明,在较大词汇量情况下,有更好的识别结果。
  参考文献
  [1]赵力.语音信号处理[M].北京:机械工业出版社,2003.
  [2]张震,王化清.语音信号特征提取中Mel倒谱系MFCC的改进算法[J].计算机工程与应用,2008,44(22).
  [3]俸云,景新幸,叶懋.MFCC特征改进算法在语音识别中的应用[J].计算机工程与科学,2009,31(12):146-148.
  [4]赵姝彦,张雪英.基于ZCPA和DHMM的孤立词语音识别系统[J].太原理工大学学报,2005,3(36):246-249.
  [5]Loizou P C.NOIZEUS:a Noisy Speech Corpus for Evaluation of Speech Enhancement Algorithms.www.utdallas.edu/~loizou/speech/noizeus/,2011-4-23.
其他文献
通过融合热带测雨卫星(TRMM)测雨雷达和可见光/红外扫描仪十年的探测结果,利用PR对降水云的直接识别,分析研究了夏季热带和副热带地区降水云及层状降水云和对流降水云的可见光0.63
介绍了质子交换铌酸锂波导的制作工艺,比较分析了不同切向、不同退火温度、不同退火时间下铌酸锂波导的特性。
根据瑞利散射、分子吸收线数据库、Mie散射理论和离散坐标法(DOM),计算了在一定环境下(气溶胶种类、相对湿度、能见度等),在不同太阳天顶角和不同观察仰角时,因大气同太阳辐
“其实,我不想永远当个大男孩,在观众眼中永远都是可爱的形象。我希望自己有突破,所以我喜欢尝试大家认为我不可能演出的角色,比如肌肉男阿信——《翻滚吧!阿信》,比如胡子拉茬的
前一段时间很流行“路过”,看起来都是过去时的状态,那些你做过的事,那些你说过的话,还有那些已经不在身边的人。很多时候我们都在后悔,后悔做过那么多傻事,感动了自己,而别人却不懂
如今是网络营销的时代。每个人的微信中总会有个“推销员”在大肆推广自己的产品和店铺。我们开始逐渐习惯网络购物,淘宝网被称为最万能的购物平台,没有买不到,只有想不到。30年
This paper analyzes the uncertainties of air cargo and applies revenue management to solve the problem of air cargo capacity control.A robust capacity allocatio
高精度、稳定的方波信号源对仪器的研制、使用和检测具有重要作用。提出了一种有效提升方波信号源精度和稳定度的设计方案。该方案利用DDS芯片产生基准方波信号并结合可编程
建立了同时快速、准确测定萝卜中K^+、Ca^2+、Na^+和Cl^-的流动注射异步注入-离子选择性电极法。最佳试验条件为:系统流量为2.43mL·min^-1;总离子强度调节缓冲液(TISAB)由80mmol
呼吸机是抢救病人的急救设备,正确安全使用,日常保养及应急故障处理,显得十分重要。美国纽邦E-100M型呼吸机是一种适用婴儿、儿童及成人的通用型呼吸机,该呼吸机通过空气/氧气混合器来控制氧浓度,并带有全面的报警系统以提醒监护医生观察注意各项指标是否在预置规定范围内。  1.纽邦E—l00M型呼吸机通气功能  1.1 定容型的辅助/控制通气+叹气性通气(伴有或不伴有自主呼吸流量)。  1.2 定压型的