论文部分内容阅读
摘要说话人识别技术是根据待识别人的语音与预先提取的说话人语音特征是否相匹配来鉴别说话人身份的一种生物认证技术,具有广泛的应用前景。本文重点研究了说话人特征参数的提取问题,在前人工作的基础上,提出了在噪声环境中更为有效的组合特征参数提取方法。
中图分类号:TN91文献标识码:A
0 引言
说话人识别技术是根据待识别人的语音与预先提取的说话人语音特征是否相匹配来鉴别说话人身份的一种生物认证技术。小波分析能同时在时、频域中对信号进行分析,有自动变焦的功能,将小波技术应用于说话人识别对提高在噪声环境下的说话人识别率有很大的改进。本文试图在小波变换的基础上寻找具有强抗噪性能的组合特征参数,以提高噪声环境下系统的识别性能。
1 小波变换原理
如果函数,并且满足允许性条件(完全重构条件或恒等分辨条件):
公式(1)
则称(t)是一个基本小波或母小波(Mother Wavelet),(t)定下来后,通过母函数的伸缩(Dilation)和平移(Translation)后得:
公式(2)
上式称为一个小波序列。其中a为伸缩因子,b为平移因子。
对于任意的函数f(t)在L2(R)上的连续小波变换定义为:
公式(3)
其重构公式(逆变换)为:
公式(4)
连续小波变换主要用于理论分析方面,在实际运用中,尤其是在计算机上实现,离散小波变换更适于计算机处理,因此,连续小波必须加以离散化。离散小波定义为:
公式(5)
离散化小波变换系数可表示为:
公式(6)
其重构公式为:
公式(7)
其中,C是一个与信号无关的常数。
2 基于小波变换的组合特征提取
2.1 思路分析
目前,小波分析己经成功地应用于语音编码、端点检测、基音周期提取等方面,但在说话人识别技术中,用小波分析来提取特征参数还处于研究阶段。研究表明,直接小波系数作为特征参数,其识别率较低,但具有较好抗噪声性能,因此难点主要在于如何把直接小波系数转化为代表说话人个性特征的参数。
2.2 改进的组合特征参数提取方法
组合特征参数提取:
方案一:分别对低频部分进行m阶的LPCC特征参数提取,对高频部分进行n阶的△LPCC特征参数提取。
方案二:分别对低频部分进行m阶的MFCC特征参数提取,对高频部分进行n阶的△MFCC特征参数提取。
实验证明,文中LPCC和△LPCC的阶数取12,MFCC和△MFCC的阶数取16时识别效果较好。则此时特征参数空间维数为84。低频部分特征参数的权重取1,高频部分特征参数的权重取2。将以上提取的组合特征参数组成特征向量供DTW或VQ识别模型进行识别。
3 改进的组合特征参数说话人辨认实验
在相对安静的教室环境下采集这40个说话人的语音,每人念一段10秒钟的报纸材料一作为系统模板的训练。再次采集这40个人的语音,测试样本一的语音内容为10秒钟的报纸材料一,测试样本二的语音内容为10秒钟的报纸材料二,材料一和材料二属于不同的段落,内容不同,汉字重复率随机。
为了驗证本文提出的组合特征参数的有效性,下面进行两组实验:
实验A:进行文本相关的说话人辨认实验。将采集的测试数据一分别输入DTW和VQ说话人识别系统进行识别。
实验B:进行文本无关的说话人辨认实验。将采集的测试数据二分别输入DTW和VQ说话人识别系统进行识别。
(注:语音相对干净,未加入噪声,为了形成对比,传统特征参数采用MFCC+△MFCC。)
实验数据如下所示:
(1)从实验A和实验B的实验数据可以看出,在干净语音环境下,进行文本相关的说话人辨认实验时,应用传统的特征参数提取方法和本文提出的组合特征参数提取方法都能得到较高的识别率;在进行文本无关的说话人辨认实验时识别率较低,原因可能是所念报纸材料文字随机性太大,文字过多,加上测试者较多,在不同的语音速率和相似的声道特点下,就极有可能增加误识率,但从总体上说也达到了识别目的。
(2)本文提出的组合特征参数提取方案可以达到较好的识别效果。基于DTW模型的识别率低于基于VQ模型的识别率,这和传统特征提取方法得出来的结论是一致的,主要原因在于基于DTW的识别算法过分依赖于端点检测,而端点检测的精度会随着语音的音素不同而不同;其次,本文采用的是传统的端点检测方法,即将语音信号的短时能量与过零率相结合的方法。此法较易发生漏检或虚检的情况,因此影响了该系统的识别率。
(3)值得一提的是,由于本文的组合特征参数是在小波分解的基础上对小波系数进行提取的,维数较多,输入识别模型的特征向量过多,加上本实验的电脑配置较低,这在一定程度上影响了识别时间,造成识别时间过长。
4 小结
说话人识别系统的性能在噪声环境下的识别性能明显降低,本文提出的组合特征参数在噪声环境中能有效改善这一缺点,在噪声环境下比传统特征参数更鲁棒,对于自然环境条件下的说话人识别来说也有一定的研究意义。
参考文献
[1]Woo S Ch, Lim Ch P,Osman R. Development of a speaker recognition system.using wavelets and artificial neural networks. Processings of 2001 International. Symposium on Intelligent, Multimedia, Video and Speech Processing,2001.2-4:413-416.
[2]Kinney A, Stevens J. Wavelet packet cepstral.Conference Record of the Thirty-Sixth Asilomar and Computers, analysis for speaker recognition.Conference on Signals, Systems 2002.1(3-6):206-209.
[3]刘鸣,戴蓓倩,李辉等.基于离散小波变换和感知频域滤波的语音特征参数.电路与系统学报,2000.5(1):21-25.
中图分类号:TN91文献标识码:A
0 引言
说话人识别技术是根据待识别人的语音与预先提取的说话人语音特征是否相匹配来鉴别说话人身份的一种生物认证技术。小波分析能同时在时、频域中对信号进行分析,有自动变焦的功能,将小波技术应用于说话人识别对提高在噪声环境下的说话人识别率有很大的改进。本文试图在小波变换的基础上寻找具有强抗噪性能的组合特征参数,以提高噪声环境下系统的识别性能。
1 小波变换原理
如果函数,并且满足允许性条件(完全重构条件或恒等分辨条件):
公式(1)
则称(t)是一个基本小波或母小波(Mother Wavelet),(t)定下来后,通过母函数的伸缩(Dilation)和平移(Translation)后得:
公式(2)
上式称为一个小波序列。其中a为伸缩因子,b为平移因子。
对于任意的函数f(t)在L2(R)上的连续小波变换定义为:
公式(3)
其重构公式(逆变换)为:
公式(4)
连续小波变换主要用于理论分析方面,在实际运用中,尤其是在计算机上实现,离散小波变换更适于计算机处理,因此,连续小波必须加以离散化。离散小波定义为:
公式(5)
离散化小波变换系数可表示为:
公式(6)
其重构公式为:
公式(7)
其中,C是一个与信号无关的常数。
2 基于小波变换的组合特征提取
2.1 思路分析
目前,小波分析己经成功地应用于语音编码、端点检测、基音周期提取等方面,但在说话人识别技术中,用小波分析来提取特征参数还处于研究阶段。研究表明,直接小波系数作为特征参数,其识别率较低,但具有较好抗噪声性能,因此难点主要在于如何把直接小波系数转化为代表说话人个性特征的参数。
2.2 改进的组合特征参数提取方法
组合特征参数提取:
方案一:分别对低频部分进行m阶的LPCC特征参数提取,对高频部分进行n阶的△LPCC特征参数提取。
方案二:分别对低频部分进行m阶的MFCC特征参数提取,对高频部分进行n阶的△MFCC特征参数提取。
实验证明,文中LPCC和△LPCC的阶数取12,MFCC和△MFCC的阶数取16时识别效果较好。则此时特征参数空间维数为84。低频部分特征参数的权重取1,高频部分特征参数的权重取2。将以上提取的组合特征参数组成特征向量供DTW或VQ识别模型进行识别。
3 改进的组合特征参数说话人辨认实验
在相对安静的教室环境下采集这40个说话人的语音,每人念一段10秒钟的报纸材料一作为系统模板的训练。再次采集这40个人的语音,测试样本一的语音内容为10秒钟的报纸材料一,测试样本二的语音内容为10秒钟的报纸材料二,材料一和材料二属于不同的段落,内容不同,汉字重复率随机。
为了驗证本文提出的组合特征参数的有效性,下面进行两组实验:
实验A:进行文本相关的说话人辨认实验。将采集的测试数据一分别输入DTW和VQ说话人识别系统进行识别。
实验B:进行文本无关的说话人辨认实验。将采集的测试数据二分别输入DTW和VQ说话人识别系统进行识别。
(注:语音相对干净,未加入噪声,为了形成对比,传统特征参数采用MFCC+△MFCC。)
实验数据如下所示:
(1)从实验A和实验B的实验数据可以看出,在干净语音环境下,进行文本相关的说话人辨认实验时,应用传统的特征参数提取方法和本文提出的组合特征参数提取方法都能得到较高的识别率;在进行文本无关的说话人辨认实验时识别率较低,原因可能是所念报纸材料文字随机性太大,文字过多,加上测试者较多,在不同的语音速率和相似的声道特点下,就极有可能增加误识率,但从总体上说也达到了识别目的。
(2)本文提出的组合特征参数提取方案可以达到较好的识别效果。基于DTW模型的识别率低于基于VQ模型的识别率,这和传统特征提取方法得出来的结论是一致的,主要原因在于基于DTW的识别算法过分依赖于端点检测,而端点检测的精度会随着语音的音素不同而不同;其次,本文采用的是传统的端点检测方法,即将语音信号的短时能量与过零率相结合的方法。此法较易发生漏检或虚检的情况,因此影响了该系统的识别率。
(3)值得一提的是,由于本文的组合特征参数是在小波分解的基础上对小波系数进行提取的,维数较多,输入识别模型的特征向量过多,加上本实验的电脑配置较低,这在一定程度上影响了识别时间,造成识别时间过长。
4 小结
说话人识别系统的性能在噪声环境下的识别性能明显降低,本文提出的组合特征参数在噪声环境中能有效改善这一缺点,在噪声环境下比传统特征参数更鲁棒,对于自然环境条件下的说话人识别来说也有一定的研究意义。
参考文献
[1]Woo S Ch, Lim Ch P,Osman R. Development of a speaker recognition system.using wavelets and artificial neural networks. Processings of 2001 International. Symposium on Intelligent, Multimedia, Video and Speech Processing,2001.2-4:413-416.
[2]Kinney A, Stevens J. Wavelet packet cepstral.Conference Record of the Thirty-Sixth Asilomar and Computers, analysis for speaker recognition.Conference on Signals, Systems 2002.1(3-6):206-209.
[3]刘鸣,戴蓓倩,李辉等.基于离散小波变换和感知频域滤波的语音特征参数.电路与系统学报,2000.5(1):21-25.