论文部分内容阅读
摘 要:利用说话人的语音来对这个人的身份进行识别的技术叫做说话人识别技术。随着信息技术的发展,说话人性别识别已经得到了很全面的研究。本文介绍了相应的特征提取及其分类。
关键词:信息技术;特征提取
1.短时能量
语音信号的能量随时间变化比较明显,一般清音部分的能量比浊音的能量小得多。语音信号的短时能量分析给出了反映这些幅度变化的一个合适的描述方法。对于信号,其短时能量定义如下:
式中 ,En表示在信号的第n个点开始加窗函数时的短时能量。En随时间的变化将变为很小,这样的窗就等效为很窄的低通滤波器。如果用xw(n)表示x(n)经过加窗处理后的信号,窗函数的长度为N,则短时能量可表示为:
短时能量主要有以下几个方面的应用:首先利用短时能量可以区分清音和浊音,因为浊音的能量要比清音的能量大得多;其次可以用短时能量对有声段和无声段进行判定,对声母和韵母分界,以及对连字分界等。
2.短时平均过零率
短时平均过零率表示一帧语音中语音信号波形穿过横轴(零电平)的次数,它是时域分析中最简单的一种特性。短时平均过零率在一定程度上反映了其频率的信息,可以通过短时平均过零率获得频谱特性的一种粗略估计。短时平均过零率的公式:
式中,sgn[ ]是符号函数,即:
3.基音频率
基音频率是说话人性别识别最重要的判别依据。它反映了说话人在发浊音时声带振动的频率。基音频率是语音信号最重要的参数之一,它描述了语音激励源的一个重要特征。一般而言,男声的基音频率比女声的基音频率低,如图1所示.该图表示了男性和女性各2000个语音文件的基音频率分布.竖轴表示基音频率的大小,单位为Hz,横轴表示男声和女声的文件数。该图所示的男女声区别使基频成为区分男女性别的一个重要特征。因此准确地估计语音信号的基音频率对于说话人性别识别非常重要。基音检测的方法有自相关函数(ACF)法、峰值提取算法(PPA)平均幅度差函数(AMDF)法、倒谱法等。
由于语音中浊音信号的自相关函数在基音周期的整数倍位置上出现峰值,而清音信号的自相关函数没有明显的峰值出现,所以检测是否有峰值就可以判断是清音或浊音,检测峰值的位置就可以提取基音周期。
在利用自相关函数估计基音周期时,在某些浊音中第一共振峰频率可能会等于或低于基音频率。如果其幅度很高,它就有可能在自相关函数中产生一个峰值,而该峰值又可以同基音频率的峰值相比拟,造成基音频率的错误检测。
由于语音信号的低幅值部分包含大量的共振峰信息,而高幅值部分包含较多的基音信息.所以采用中心削波的方法去除语音中和声道响应有关的波动。因此,任何削减或者抑制语音低幅度部分的非线性处理都会使自相关方法的性能得到改善。由于计算自相关函数的运算量很大,需对中心削波函数进行修正,所以本文采用三电平中心削波的方法提高自相关方法的性能并减少了自相关函数的运算量。三电平中心削波函数为
当削波器的输出在x(n)>L时为1,x(n)<-L时为-1,除此以外均为零。
4.共振峰
共振峰是喉管口腔鼻腔以及舌头腮帮子共同组成的发音系统固有的谐振频率。共振峰指在声音的频谱中能量相对集中的一些区域,共振峰不但是音质的决定因素,而且反映了声道(共振腔)的物理特征。一般来说,频谱能量的个数很多,因此采用共振峰这个频谱能量图的局部最大点来作为语音的特征。
5.语音信号频域特征
由于语音是一个非平稳过程,因此使用于周期平穩随机信号的标准傅立叶变换不能用来直接表示语音信号,而应该使用短时傅里叶变换对语音信号的频谱进行分析,相应的频谱称为短时谱。
傅里叶变换的短时谱:
设为第帧加窗后的语音信号,则其傅里叶变换如下:
其相应的功率谱为:
在语音信号数字处理中,功率谱具有重要的意义,在一些语音应用系统中,往往都是利用语音信号的功率谱。
参考文献
[1] 吴朝晖,杨莹春. 说话人识别模型与方法[M].北京:电子工业出版社,1995.
[2] 邓英, 欧贵文.基于 HMM 的性别识别[J].计算机工程与应用, 40(15): 74-75.
关键词:信息技术;特征提取
1.短时能量
语音信号的能量随时间变化比较明显,一般清音部分的能量比浊音的能量小得多。语音信号的短时能量分析给出了反映这些幅度变化的一个合适的描述方法。对于信号,其短时能量定义如下:
式中 ,En表示在信号的第n个点开始加窗函数时的短时能量。En随时间的变化将变为很小,这样的窗就等效为很窄的低通滤波器。如果用xw(n)表示x(n)经过加窗处理后的信号,窗函数的长度为N,则短时能量可表示为:
短时能量主要有以下几个方面的应用:首先利用短时能量可以区分清音和浊音,因为浊音的能量要比清音的能量大得多;其次可以用短时能量对有声段和无声段进行判定,对声母和韵母分界,以及对连字分界等。
2.短时平均过零率
短时平均过零率表示一帧语音中语音信号波形穿过横轴(零电平)的次数,它是时域分析中最简单的一种特性。短时平均过零率在一定程度上反映了其频率的信息,可以通过短时平均过零率获得频谱特性的一种粗略估计。短时平均过零率的公式:
式中,sgn[ ]是符号函数,即:
3.基音频率
基音频率是说话人性别识别最重要的判别依据。它反映了说话人在发浊音时声带振动的频率。基音频率是语音信号最重要的参数之一,它描述了语音激励源的一个重要特征。一般而言,男声的基音频率比女声的基音频率低,如图1所示.该图表示了男性和女性各2000个语音文件的基音频率分布.竖轴表示基音频率的大小,单位为Hz,横轴表示男声和女声的文件数。该图所示的男女声区别使基频成为区分男女性别的一个重要特征。因此准确地估计语音信号的基音频率对于说话人性别识别非常重要。基音检测的方法有自相关函数(ACF)法、峰值提取算法(PPA)平均幅度差函数(AMDF)法、倒谱法等。
由于语音中浊音信号的自相关函数在基音周期的整数倍位置上出现峰值,而清音信号的自相关函数没有明显的峰值出现,所以检测是否有峰值就可以判断是清音或浊音,检测峰值的位置就可以提取基音周期。
在利用自相关函数估计基音周期时,在某些浊音中第一共振峰频率可能会等于或低于基音频率。如果其幅度很高,它就有可能在自相关函数中产生一个峰值,而该峰值又可以同基音频率的峰值相比拟,造成基音频率的错误检测。
由于语音信号的低幅值部分包含大量的共振峰信息,而高幅值部分包含较多的基音信息.所以采用中心削波的方法去除语音中和声道响应有关的波动。因此,任何削减或者抑制语音低幅度部分的非线性处理都会使自相关方法的性能得到改善。由于计算自相关函数的运算量很大,需对中心削波函数进行修正,所以本文采用三电平中心削波的方法提高自相关方法的性能并减少了自相关函数的运算量。三电平中心削波函数为
当削波器的输出在x(n)>L时为1,x(n)<-L时为-1,除此以外均为零。
4.共振峰
共振峰是喉管口腔鼻腔以及舌头腮帮子共同组成的发音系统固有的谐振频率。共振峰指在声音的频谱中能量相对集中的一些区域,共振峰不但是音质的决定因素,而且反映了声道(共振腔)的物理特征。一般来说,频谱能量的个数很多,因此采用共振峰这个频谱能量图的局部最大点来作为语音的特征。
5.语音信号频域特征
由于语音是一个非平稳过程,因此使用于周期平穩随机信号的标准傅立叶变换不能用来直接表示语音信号,而应该使用短时傅里叶变换对语音信号的频谱进行分析,相应的频谱称为短时谱。
傅里叶变换的短时谱:
设为第帧加窗后的语音信号,则其傅里叶变换如下:
其相应的功率谱为:
在语音信号数字处理中,功率谱具有重要的意义,在一些语音应用系统中,往往都是利用语音信号的功率谱。
参考文献
[1] 吴朝晖,杨莹春. 说话人识别模型与方法[M].北京:电子工业出版社,1995.
[2] 邓英, 欧贵文.基于 HMM 的性别识别[J].计算机工程与应用, 40(15): 74-75.