论文部分内容阅读
说话人识别是根据人的声音来识别说话人身份的生物认证技术,被广泛应用于语音检索、司法鉴定、计算机远程登录、安全认证等领域。正因为它的广泛应用,说话人识别已成为当今生物认证技术领域的一个研究热点。说话人识别注重的是语音信号中说话人的个性因素,强调不同人之间的差别,这就要求对说话人特征的提取要非常精确,虽然已经提出了各种提取方法,但由于环境及说话人自身的种种因素,存在一定的难度。本文围绕说话人的语音时频特征进行了相关的研究,具体的研究工作如下:1.提出了一种基于Gabor变换与双线性时频分布相结合的时频方法。根据短时Fourier变换、Wigner-Ville分布、Choi-Williams分布等时频分析方法存在的问题,从图像处理的角度对Gabor变换与双线性时频分布相结合后的时频图像进行处理,可以得到具有良好时频聚集性同时又减少交叉项的时频分布。实验中与Gabor变换、Wigner-Ville分布、Choi-Williams分布进行了比较,仿真结果表明该方法可以获得精细的语音时频结构。2.通过前面对语音时频结构的研究,利用Mel频率倒谱系数作为特征参数进行说话人识别。先分别对原始语音、各种时频分析方法及改进后的时频结构进行Mel频率倒谱参数的提取,然后在得到特征参数的基础上采用支持向量机作为模式匹配的方法进行说话人识别,仿真实验表明,改进后的时频结构更有助于提高说话人识别,识别率提高到了94.1%。3.通过对人耳听觉系统的分析了解,提出了利用Gamma tone滤波器对说话人语音信号进行处理的方法。先研究了脉冲耦合神经网络的原理及两种常用的特征,即时间序列和熵序列,将两种特征分别用于说话人识别中进行了比较,仿真实验结果表明熵序列更能很好的识别不同的说话人。再将说话人的语音信号通过Gamma tone滤波器,然后将处理后的信号通过语谱图算法得到语谱图,再在此基础上使用脉冲耦合神经网络进行特征提取,得到各个说话人的熵序列并与不同说话人进行比较。仿真结果表明,语音信号通过Gamma tone滤波器后的图像的熵序列与自身的欧氏距离要比未通过Gamma tone的更小。