论文部分内容阅读
摘要:本文简单介绍了几种减少噪音带来的待识别信号特征与模型特征不匹配的方法,针对噪音环境下语音特征的变化特点,重点分析了归一化方法,并对动态范围调整方法做了重点的介绍。通过分析孤立词识别中存在的问题,提出了在连续语音特征曲线中基于动态范围调整的新方法。
关键词:连续语音识别;动态范围调整;归一化;算法
中图分类号:TN912.34
当噪音引起连续语音信号失真时,提取的连续语音特征曲线也会在时域和频域内失真[1]。如果用带噪特征去匹配纯净语音的特征模型,会造成带噪特征与模型之间的不匹配,这就导致了识别率的下降。
在连续语音识别中为了减少上述不匹配的问题,有三种主要解决技术。一是多条件或者多类型的训练方法,也就是使用带噪数据来进行训练[2]。虽然这个方法能够在特定的噪音环境下可以得到较好的识别精度,但是如果噪音环境发生变化识别精度还会急剧的降低。换言之,如果待识别数据与模型数据的条件(环境)不同,如:信噪比或者噪声类型,在待识别数据和模型之间仍会存在不匹配的现象。二是采用自适应模型方法[3],通过自适应模型来减少不匹配的问题。这种训练模型方法同时使用纯净和噪音数据来进行训练,这又会导致模型的区分度不高,同样会是识别精度下降。三是采用特征归一化方法,这种方法虽然不能从根本上改变待识别特征与模型之间的不匹配,但是在一定程度上会保留模型的区分度并减少由于环境变化导致带噪语音失真的影响。本文主要研究第三种方法。
语音增强和特征补偿方法以恢复语音特征为目的,但是特征归一化方法只是对语音特征的某些统计信息进行改变,并期望由此减少噪声引起的失真。不论是语音补偿还是特征补偿,都需要改变语音的特征向量,而传统的归一化方法只是对语音特征统计信息的范围进行处理,提出的算法在保证原有语音统计信息的前提下,适当改变部分语音特征向量。从而减少由噪音引起的语音特征曲线的失真。
动态范围调整方法属于归一化方法的一种,能够对干净和带噪语音的特征统计信息处理到相对较小的一个范围内。归一化方法能够根据一些模板值减少噪音特征在统计信息上的影响。相比使用归一化方法之前,在干净语音特征和带噪语音特征之间的不匹配部分会显著减少。语音增强一般应用在时域和频域中恢复语音特征的质量。特征补偿方法通常应用在加强连续语音系数在对数滤波阶数和频谱域使用。
减少待识别语音特征和模型的不匹配的方法虽然不是提高语音识别鲁棒性的唯一方法,但却是一种很有效的方法。通过这种方法可以减少待识别特征和模型之间的不匹配使得识别性能得以提高。
1 噪音对孤立词语音数据的影响
加法性噪音和乘法性噪音是影响语音信号最普通的两种噪音类型。例如:加法性噪音包含背景噪音,交通噪音,等等。乘法性噪音主要是传输过程中产生的信道失真。例如麦克风自身的噪音,房间的反射噪音等等。干净的语音信号首先被信道失真所干扰,进一步被加法性噪音干扰。
包含噪音的频谱可以用如下公式描述:
噪音干扰在增益部分和直流分量部分的影响是不同的,如图1所示:在孤立词识别中,很多实验表明使用DRA方法对加法性噪音和乘法性噪音都具有很好的性能。
图2展示了噪音影响在孤立词中的性能。在图2中,有两条不同的特征曲线,曲线表示了干净语音和10db信噪比的噪音特征在第二项MFCC中。者两条曲线来源于同一个语音数据。
然而,由于噪音严重的影响,噪音下的MFCC特征曲线的动态范围要小于干净语音的MFCC特征曲线的动态范围。如果使用干净语音特征建立HMM训练模型,能够获得理想的模型并在同等条件下获得更高的识别率。但是对噪音下的语音识别,由于上述的原因,自动语音识别系统无法在任何噪音下获得正确的识别结果。虽然DRA归一化方法能够在孤立词识别中获得较好的识别结果,但直接用于连续语音识别并不是特别的理想。
图2展示了在孤立词中不匹配的峰值。DRA归一化方法算法使用最大值的方法将频谱系数范围标准化到一个统一的范围。在每个维度,DRA方法将干净或者带噪语音频谱系数的动态范围调整到同一个标准范围中。但在孤立词识别中,特征曲线中的峰值是有限的。归一化方法非常适用于孤立词识别。而连续语音识别特征曲线的峰值要远多于孤立词识别,归一化方法并不直接适用。
2 噪音对连续语音数据的影响
对连续语音特征曲线来说,不匹配的峰值随着语音特征曲线的增长而增加,语音特征曲线的动态范围随着噪音的增加而减少。因此简单的归一化算法不能有效适用连续语音识别。
我们的目标是缩小待识别噪音特征曲线与干净的语音特征曲线之间的差异。经过噪音鲁棒性方法和DRA方法,语音信号中的直流分量的不同得以减少,特征曲线中不匹配的峰值也得以减少。
基于前面提到的孤立词识别的归一化方法,我们可以假设噪音没有改变原有的特征曲线的统计顺序,也就是在语音特征曲线上会存在很多峰值,如第一高峰值,第二高峰值,等等。在连续语音特征中,全局的统计信息的匹配就在整个训练数据集中显得比较重要。一般来说,这些特征曲线上的峰值信息代表了元音的语音特征。随着训练量的增加,这些峰值信息一般会集中到相对稳定的区域。但实际上,噪音通常会改变特征曲线的统计顺序。如果能恢复部分特征曲线上统计信息的顺序,就能增加这些峰值的匹配几率。
虽然通过上述的图示可以看出通过归一化方法可以增加干净语音特征曲线和带噪语音特征曲线的拟合程度,连续语音特征曲线中存在较多的峰值,带噪语音特征曲线会改变一些峰值的统计信息,因此把归一化方法简单的使用到连续语音识别中无法达到如图的拟合程度。提出的算法可以尽最大可能恢复带噪语音的峰值统计信息。
使用DRA归一化能提高特征曲线的峰值匹配概率。孤立词特征曲线通常不含静音部分,但在连续语音中,语音之间存在由于思考或者换气产生的静音,在此部分仍然使用归一化方法在过渡位置会放大只有噪音的信号特征。这就导致了连续语音特征在此部分无法匹配。
根据上面的讨论,可以通过下面两步对特征曲线进行处理。
第一步:从连续语音数据中提取所有的短句子。
估计无音部分。连续语音包含许多无音部分和只有噪音的部分,因为这些部分不适合使用DRA。在下一步中消除连续语音特征曲线中各个动态范围的不平衡性。
第二步:把选取出来的短句子分成更小的片段,在每个片段中使用归一化方法。
如果片段的长度接近短句长度,导致识别结果与传统DRA方法接近,如果片段的长度特别小,则导致识别精度急剧下降。根据实验得到经验数据当片段长度为80帧时,识别精度最高。不同片段长度得到的识别结果如下图:
3 小结
在训练过程中使用大量的数据可以使各个音素的模型逐渐集中在某一个范围。对于测试数据来说,音素的范围很有可能与模型不在同一个范围内,待识别音素是有限的,不可知的。
使用噪音鲁棒性方法和DRA在建立区分度较高模型方法,这些鲁棒性方法在发音较短的孤立词识别中展现了良好的识别性能,并说明了这些方法无法直接在连续语音识别中的原因。
虽然在带噪语音特征曲线和干净语音特征曲线仍然有不匹配的峰值,需要指出的是,对比使用传统的DRA算法,减少了不匹配的峰值。由此可以看出,使用提出的算法调整带噪语音特征曲线可以增加峰值部分的匹配几率。使用该算法在干净和噪音环境下可以提高整体的识别性能。特别指出的是,提出的算法大幅提高了在噪音环境下的连续语音识别性能,根本原因就是相对于传统的DRA,选择了更合适的调整值,适当的放大了峰值。该算法在语音频谱系数的对数系数特征里也适用。
参考文献:
[1]张雄伟等编著.现代语音处理技术及应用[M].机械工业出版社,2003.
[2]王欣,罗代升,王正勇.基于改进谱减算法的语音增强研究[J].成都信息工程学院学报,2007(02).
[3]孔浩,杨勇,王国胤.基于多分类器融合的语音识别方法研究[J].重庆邮电大学学报(自然科学版),2011(04).
关键词:连续语音识别;动态范围调整;归一化;算法
中图分类号:TN912.34
当噪音引起连续语音信号失真时,提取的连续语音特征曲线也会在时域和频域内失真[1]。如果用带噪特征去匹配纯净语音的特征模型,会造成带噪特征与模型之间的不匹配,这就导致了识别率的下降。
在连续语音识别中为了减少上述不匹配的问题,有三种主要解决技术。一是多条件或者多类型的训练方法,也就是使用带噪数据来进行训练[2]。虽然这个方法能够在特定的噪音环境下可以得到较好的识别精度,但是如果噪音环境发生变化识别精度还会急剧的降低。换言之,如果待识别数据与模型数据的条件(环境)不同,如:信噪比或者噪声类型,在待识别数据和模型之间仍会存在不匹配的现象。二是采用自适应模型方法[3],通过自适应模型来减少不匹配的问题。这种训练模型方法同时使用纯净和噪音数据来进行训练,这又会导致模型的区分度不高,同样会是识别精度下降。三是采用特征归一化方法,这种方法虽然不能从根本上改变待识别特征与模型之间的不匹配,但是在一定程度上会保留模型的区分度并减少由于环境变化导致带噪语音失真的影响。本文主要研究第三种方法。
语音增强和特征补偿方法以恢复语音特征为目的,但是特征归一化方法只是对语音特征的某些统计信息进行改变,并期望由此减少噪声引起的失真。不论是语音补偿还是特征补偿,都需要改变语音的特征向量,而传统的归一化方法只是对语音特征统计信息的范围进行处理,提出的算法在保证原有语音统计信息的前提下,适当改变部分语音特征向量。从而减少由噪音引起的语音特征曲线的失真。
动态范围调整方法属于归一化方法的一种,能够对干净和带噪语音的特征统计信息处理到相对较小的一个范围内。归一化方法能够根据一些模板值减少噪音特征在统计信息上的影响。相比使用归一化方法之前,在干净语音特征和带噪语音特征之间的不匹配部分会显著减少。语音增强一般应用在时域和频域中恢复语音特征的质量。特征补偿方法通常应用在加强连续语音系数在对数滤波阶数和频谱域使用。
减少待识别语音特征和模型的不匹配的方法虽然不是提高语音识别鲁棒性的唯一方法,但却是一种很有效的方法。通过这种方法可以减少待识别特征和模型之间的不匹配使得识别性能得以提高。
1 噪音对孤立词语音数据的影响
加法性噪音和乘法性噪音是影响语音信号最普通的两种噪音类型。例如:加法性噪音包含背景噪音,交通噪音,等等。乘法性噪音主要是传输过程中产生的信道失真。例如麦克风自身的噪音,房间的反射噪音等等。干净的语音信号首先被信道失真所干扰,进一步被加法性噪音干扰。
包含噪音的频谱可以用如下公式描述:
噪音干扰在增益部分和直流分量部分的影响是不同的,如图1所示:在孤立词识别中,很多实验表明使用DRA方法对加法性噪音和乘法性噪音都具有很好的性能。
图2展示了噪音影响在孤立词中的性能。在图2中,有两条不同的特征曲线,曲线表示了干净语音和10db信噪比的噪音特征在第二项MFCC中。者两条曲线来源于同一个语音数据。
然而,由于噪音严重的影响,噪音下的MFCC特征曲线的动态范围要小于干净语音的MFCC特征曲线的动态范围。如果使用干净语音特征建立HMM训练模型,能够获得理想的模型并在同等条件下获得更高的识别率。但是对噪音下的语音识别,由于上述的原因,自动语音识别系统无法在任何噪音下获得正确的识别结果。虽然DRA归一化方法能够在孤立词识别中获得较好的识别结果,但直接用于连续语音识别并不是特别的理想。
图2展示了在孤立词中不匹配的峰值。DRA归一化方法算法使用最大值的方法将频谱系数范围标准化到一个统一的范围。在每个维度,DRA方法将干净或者带噪语音频谱系数的动态范围调整到同一个标准范围中。但在孤立词识别中,特征曲线中的峰值是有限的。归一化方法非常适用于孤立词识别。而连续语音识别特征曲线的峰值要远多于孤立词识别,归一化方法并不直接适用。
2 噪音对连续语音数据的影响
对连续语音特征曲线来说,不匹配的峰值随着语音特征曲线的增长而增加,语音特征曲线的动态范围随着噪音的增加而减少。因此简单的归一化算法不能有效适用连续语音识别。
我们的目标是缩小待识别噪音特征曲线与干净的语音特征曲线之间的差异。经过噪音鲁棒性方法和DRA方法,语音信号中的直流分量的不同得以减少,特征曲线中不匹配的峰值也得以减少。
基于前面提到的孤立词识别的归一化方法,我们可以假设噪音没有改变原有的特征曲线的统计顺序,也就是在语音特征曲线上会存在很多峰值,如第一高峰值,第二高峰值,等等。在连续语音特征中,全局的统计信息的匹配就在整个训练数据集中显得比较重要。一般来说,这些特征曲线上的峰值信息代表了元音的语音特征。随着训练量的增加,这些峰值信息一般会集中到相对稳定的区域。但实际上,噪音通常会改变特征曲线的统计顺序。如果能恢复部分特征曲线上统计信息的顺序,就能增加这些峰值的匹配几率。
虽然通过上述的图示可以看出通过归一化方法可以增加干净语音特征曲线和带噪语音特征曲线的拟合程度,连续语音特征曲线中存在较多的峰值,带噪语音特征曲线会改变一些峰值的统计信息,因此把归一化方法简单的使用到连续语音识别中无法达到如图的拟合程度。提出的算法可以尽最大可能恢复带噪语音的峰值统计信息。
使用DRA归一化能提高特征曲线的峰值匹配概率。孤立词特征曲线通常不含静音部分,但在连续语音中,语音之间存在由于思考或者换气产生的静音,在此部分仍然使用归一化方法在过渡位置会放大只有噪音的信号特征。这就导致了连续语音特征在此部分无法匹配。
根据上面的讨论,可以通过下面两步对特征曲线进行处理。
第一步:从连续语音数据中提取所有的短句子。
估计无音部分。连续语音包含许多无音部分和只有噪音的部分,因为这些部分不适合使用DRA。在下一步中消除连续语音特征曲线中各个动态范围的不平衡性。
第二步:把选取出来的短句子分成更小的片段,在每个片段中使用归一化方法。
如果片段的长度接近短句长度,导致识别结果与传统DRA方法接近,如果片段的长度特别小,则导致识别精度急剧下降。根据实验得到经验数据当片段长度为80帧时,识别精度最高。不同片段长度得到的识别结果如下图:
3 小结
在训练过程中使用大量的数据可以使各个音素的模型逐渐集中在某一个范围。对于测试数据来说,音素的范围很有可能与模型不在同一个范围内,待识别音素是有限的,不可知的。
使用噪音鲁棒性方法和DRA在建立区分度较高模型方法,这些鲁棒性方法在发音较短的孤立词识别中展现了良好的识别性能,并说明了这些方法无法直接在连续语音识别中的原因。
虽然在带噪语音特征曲线和干净语音特征曲线仍然有不匹配的峰值,需要指出的是,对比使用传统的DRA算法,减少了不匹配的峰值。由此可以看出,使用提出的算法调整带噪语音特征曲线可以增加峰值部分的匹配几率。使用该算法在干净和噪音环境下可以提高整体的识别性能。特别指出的是,提出的算法大幅提高了在噪音环境下的连续语音识别性能,根本原因就是相对于传统的DRA,选择了更合适的调整值,适当的放大了峰值。该算法在语音频谱系数的对数系数特征里也适用。
参考文献:
[1]张雄伟等编著.现代语音处理技术及应用[M].机械工业出版社,2003.
[2]王欣,罗代升,王正勇.基于改进谱减算法的语音增强研究[J].成都信息工程学院学报,2007(02).
[3]孔浩,杨勇,王国胤.基于多分类器融合的语音识别方法研究[J].重庆邮电大学学报(自然科学版),2011(04).