论文部分内容阅读
摘 要:基音周期是语音信号最重要的参数之一,而基音周期的精确检测一直是一件比较困难的事情。无论采用哪种基音检测算法都可能产生基音检测错误,使得基音周期轨迹中有一个或几个基音周期估计值偏离了正常轨迹,本文就介绍了如何使用自相关算法和二次平滑算法组合使用,提取基音周期的方法。
关键词:基音周期,自相关算法,二次平滑
中图分类号:TN912.3
1 引言
基音是指发浊音时声带振动所引起的周期性,而基音周期是指声带振动频率的倒数。基音周期是语音信号最重要的参数之一,它描述了语音激励源的重要特征。由于人的声道的易变性及其声道特征的因人而异,而基音周期的范围又很宽,且同一个人在不同情态下发音的基音周期也不同。加之基音周期还受到单词发音音调的影响,因而基音周期的精确检测实际上是一件比较困难的事情。尽管基音检测有许多困难,但因为它的重要性,基音的检测提取一直是一个研究的课题。
2自相关法估计基音周期
语音信号 经窗长为N的窗口截取为一段加窗语
音信号 ,定义 的自相关函数
为(1)式:
(1)
这里k是最大的延迟点数。
短时自相关函数具有以下性质:
(1)如果 是周期的(设周期为 ),则自相关
函数是同周期的周期函数,即 。
(2) 是偶函数,即 。
(3)当 时,自相关函数具有最大值,即
,并且 等于确定性信号序列的
能量或随机性序列的平均功率。
由于语音信号中浊音信号的自相关函数在基音周期的整数倍的位置上出现峰值;而清音的自相关函数没有明显的峰值出现,因此是否有峰值就可以判断是清音或浊音,检测峰值的位置就可以提取基音周期[4]。具体作法是,如图1所示[4],在计算完语音波形信号的短时自相关函数后,找出短时自相关函数的极大值中的最大值,然后按照其所处的位置
在原始波形上的对应点 附近寻找波形幅值的最大值,它所处的相对位置即为当前的周期值 。
但在利用自相关函数估计基音周期时,滑动窗的宽度必须大于波形周期的两倍以上,同时,窗宽又要尽能地小,否则将影响短时性,增大计算量,为解决这个矛盾,我们采用自适应方法来调整窗口的宽度。同时基音检测容易受到声道的共振峰特性的“干扰”。所谓共振峰即当元音激励进入声道时会引起共振特性,产生的一组共振频率。当基音的周期性和共振峰的周期性混叠在一起时,被检测出来的峰值就会偏离原来峰值的真实位置[4]。另外,某些浊音中,第一共振峰频率可能会等于或低于基音频率。此时,如果其幅度很高,它就可能在自相关函数中产生一个峰值,而该峰值又可以同基音频率的峰值相比拟,从而给基音周期值的检测带来误差[2]。
为了克服上述的困难,可以在基音检测之前对原始信号进行有效的非线性变换,通常都采用中心削波处理。
中心削波处理是使用如图2所示的中心削波函数进行处理的,其公式如(2)式:
(2)
其中削波电平 一般取最大信号幅度的。图3给出了中心削波处理后的结果。中心削波后,再用自相关法检测基音频率,错判为共振峰值的情况可以大大减小。
在实际计算中,为了减少自相关计算中的乘法运算,可
以把上述中心削波后的信号 的自相关用两个信号的
互相关代替[3],其中一个信号是 ,另一个信号是对
进行三电平量化产生的结果 ,即
显然 只有 , , 三种可能的取值,因而这里的互相关计算只需做加减法,而这个互相关序列的周期性与
的自相关序列是近似相同的。
3基音检测的后处理
无论采用哪种基音检测算法都可能产生基音检测错误,使得基音周期轨迹中有一个或几个基音周期估计值偏离了正常轨迹(通常是正常值的倍或倍),称这种偏离点为基音轨迹的“野点”。
本文采用组合平滑算法[2]去除这些基音轨迹中的野点。
组合平滑处理有两种处理方法:一种方法是将一个5点中值平滑和一个3点中值平滑串接,如图4a所示。另一种方法是将中值平滑和线性平滑组合,如图4b所示。
为了使平滑的基音轨迹更贴近,还可以采用二次平滑的算法[2]。设所要平滑的基音周期序列为,经过一次组合平滑(本文采用中值平滑和线性平滑的组合平滑方法)得到信号为。那么首先求出两者的差值信号, 再对进行组合平滑,得到,令输出等于,就可以得到更好的基音周期估计轨迹。由于中值平滑和线性平滑都会引入延时,所以再实现上述方案时应考虑到它的影响,可以采用补偿延时的方法。
其算法框图如图5所示,其中的延时大小可由中值平滑的点数和线性平滑的点数来决定。例如,一个5点中值平滑将引入2点延时,一个3点中值平滑将引入1点延时,那么采用此两者完成组合平滑时,补偿延时的点数应等于3。经过一次和二次平滑后的基音检测结果如图6所示,可以看出二次平滑后的结果更接近于原始基音轨迹。
因此,利用各种方法组合可以更加精确的提取基音周期,为语音识别和说话人识别研究提供可靠的依据。
参考文献:
[1] 杨行峻,迟惠生.语音信号数字处理.北京:电子工业出版社[M],1995.
[2] 赵力.语音信号处理.北京:机械工业出版社[M],2003.
[3] 易克初,田斌,付强.语音信号处理.北京:国防工业出版社[M],2000.
[4] 陶伟中. 语音动态特征分析和说话人识别方法的研究. [博士学位论文],西安,西安交通大学,1995.
作者简介:
谢迎春(1980-),女,广东湛江人,硕士,武警警种学院训练部文化教研室讲师。研究方向:信号与处理,智能信息处理,电工电子技术。单位:武警警种学院文化教研室
关键词:基音周期,自相关算法,二次平滑
中图分类号:TN912.3
1 引言
基音是指发浊音时声带振动所引起的周期性,而基音周期是指声带振动频率的倒数。基音周期是语音信号最重要的参数之一,它描述了语音激励源的重要特征。由于人的声道的易变性及其声道特征的因人而异,而基音周期的范围又很宽,且同一个人在不同情态下发音的基音周期也不同。加之基音周期还受到单词发音音调的影响,因而基音周期的精确检测实际上是一件比较困难的事情。尽管基音检测有许多困难,但因为它的重要性,基音的检测提取一直是一个研究的课题。
2自相关法估计基音周期
语音信号 经窗长为N的窗口截取为一段加窗语
音信号 ,定义 的自相关函数
为(1)式:
(1)
这里k是最大的延迟点数。
短时自相关函数具有以下性质:
(1)如果 是周期的(设周期为 ),则自相关
函数是同周期的周期函数,即 。
(2) 是偶函数,即 。
(3)当 时,自相关函数具有最大值,即
,并且 等于确定性信号序列的
能量或随机性序列的平均功率。
由于语音信号中浊音信号的自相关函数在基音周期的整数倍的位置上出现峰值;而清音的自相关函数没有明显的峰值出现,因此是否有峰值就可以判断是清音或浊音,检测峰值的位置就可以提取基音周期[4]。具体作法是,如图1所示[4],在计算完语音波形信号的短时自相关函数后,找出短时自相关函数的极大值中的最大值,然后按照其所处的位置
在原始波形上的对应点 附近寻找波形幅值的最大值,它所处的相对位置即为当前的周期值 。
但在利用自相关函数估计基音周期时,滑动窗的宽度必须大于波形周期的两倍以上,同时,窗宽又要尽能地小,否则将影响短时性,增大计算量,为解决这个矛盾,我们采用自适应方法来调整窗口的宽度。同时基音检测容易受到声道的共振峰特性的“干扰”。所谓共振峰即当元音激励进入声道时会引起共振特性,产生的一组共振频率。当基音的周期性和共振峰的周期性混叠在一起时,被检测出来的峰值就会偏离原来峰值的真实位置[4]。另外,某些浊音中,第一共振峰频率可能会等于或低于基音频率。此时,如果其幅度很高,它就可能在自相关函数中产生一个峰值,而该峰值又可以同基音频率的峰值相比拟,从而给基音周期值的检测带来误差[2]。
为了克服上述的困难,可以在基音检测之前对原始信号进行有效的非线性变换,通常都采用中心削波处理。
中心削波处理是使用如图2所示的中心削波函数进行处理的,其公式如(2)式:
(2)
其中削波电平 一般取最大信号幅度的。图3给出了中心削波处理后的结果。中心削波后,再用自相关法检测基音频率,错判为共振峰值的情况可以大大减小。
在实际计算中,为了减少自相关计算中的乘法运算,可
以把上述中心削波后的信号 的自相关用两个信号的
互相关代替[3],其中一个信号是 ,另一个信号是对
进行三电平量化产生的结果 ,即
显然 只有 , , 三种可能的取值,因而这里的互相关计算只需做加减法,而这个互相关序列的周期性与
的自相关序列是近似相同的。
3基音检测的后处理
无论采用哪种基音检测算法都可能产生基音检测错误,使得基音周期轨迹中有一个或几个基音周期估计值偏离了正常轨迹(通常是正常值的倍或倍),称这种偏离点为基音轨迹的“野点”。
本文采用组合平滑算法[2]去除这些基音轨迹中的野点。
组合平滑处理有两种处理方法:一种方法是将一个5点中值平滑和一个3点中值平滑串接,如图4a所示。另一种方法是将中值平滑和线性平滑组合,如图4b所示。
为了使平滑的基音轨迹更贴近,还可以采用二次平滑的算法[2]。设所要平滑的基音周期序列为,经过一次组合平滑(本文采用中值平滑和线性平滑的组合平滑方法)得到信号为。那么首先求出两者的差值信号, 再对进行组合平滑,得到,令输出等于,就可以得到更好的基音周期估计轨迹。由于中值平滑和线性平滑都会引入延时,所以再实现上述方案时应考虑到它的影响,可以采用补偿延时的方法。
其算法框图如图5所示,其中的延时大小可由中值平滑的点数和线性平滑的点数来决定。例如,一个5点中值平滑将引入2点延时,一个3点中值平滑将引入1点延时,那么采用此两者完成组合平滑时,补偿延时的点数应等于3。经过一次和二次平滑后的基音检测结果如图6所示,可以看出二次平滑后的结果更接近于原始基音轨迹。
因此,利用各种方法组合可以更加精确的提取基音周期,为语音识别和说话人识别研究提供可靠的依据。
参考文献:
[1] 杨行峻,迟惠生.语音信号数字处理.北京:电子工业出版社[M],1995.
[2] 赵力.语音信号处理.北京:机械工业出版社[M],2003.
[3] 易克初,田斌,付强.语音信号处理.北京:国防工业出版社[M],2000.
[4] 陶伟中. 语音动态特征分析和说话人识别方法的研究. [博士学位论文],西安,西安交通大学,1995.
作者简介:
谢迎春(1980-),女,广东湛江人,硕士,武警警种学院训练部文化教研室讲师。研究方向:信号与处理,智能信息处理,电工电子技术。单位:武警警种学院文化教研室