论文部分内容阅读
说话人识别技术与其他生物识别技术相比,具有更为简便、经济和更好的可扩展性等优点。目前的说话人识别系统对纯净语音已经可以达到很高的识别精度,但当用于识别的语音存在失真时,系统的识别性能显著下降。实际应用中造成语音失真的因素非常多。因此,提高识别系统的鲁棒性是说话人识别技术走向实用化的关键。本文从鲁棒性特征分析提取和优选、噪声失真补偿、说话人预分类等几个方面展开研究,提出了改进算法,取得了一些研究成果。
本文在介绍说话人识别中常用的语音特征参数和典型的说话人分类模型的基础上,特别分析了感知线性预测倒谱系数(PLPCC)参数的特点和提取方法,比较了几种参数在与文本无关的说话人识别中的性能,得到了基于PLPCC语音特征参数和高斯混合模型(GMM)的系统具有更好的性能的结果。并根据GMM和人工神经网络(ANN)模型的特点,提出了一种基于ANN和GMM模型联合得分判别的识别方法,在一定程度上提高了识别性能。
在分析和研究基音同步分析方法和鉴别性特征参数选取方法的基础上,提出了基于语音基音同步分析特征参数提取和Fisher比特征参数矢量分量优选降维的说话人识别算法。该算法采用基音同步分析方法提取各帧语音的PLPCC及其ΔAPLPCC特征参数,再利用Fisher比对由基音P、12阶PLPCC和ΔPLPCC组成的特征参数矢量的各维分量进行优选,使最终的特征参数矢量得到降维。与文本无关的闭集说话人识别仿真实验表明:语音基音同步分析特征参数提取和Fisher比特征参数矢量分量优选降维可以提高识别系统性能;本算法与通常的算法相比,其识别率和鲁棒性得到了提高,而有效降低了模型的复杂度。
训练条件与测试条件的不匹配是导致说话人识别系统性能下降的一个重要原因,而噪声是引起这种失配的主要因素之一。提高系统在噪声环境下的性能的一个重要方法就是对噪声进行补偿,使失配减小。本文在仔细分析短时语音频谱结构特征的基础上,提出了一个基于浊音语音谐波频谱子带加权重建的抗噪声说话人识别算法。该算法针对浊音语音谐波频谱结构的特征,对受噪声污染的浊音频谱在各个谐波带上根据信号能量和谱平坦度测度实施加权重建,然后基于重建的浊音频谱提取相应的PLPCC参数,在参数域上实现对噪声的补偿。仿真结果表明,该算法可以对多种类型的含噪语音进行良好的噪声补偿,明显提高在噪声环境下的说话人识别率,特别是低SNR环境下的识别率,噪声补偿性能明显优于谱减法和倒谱均值相减法的补偿方法。
语音的基音特征也是一种具有一定鲁棒性的语音特征参数。本文研究了基音提取方法及其在说话人识别中的应用。在分析已有的基音检测算法的基础上,本文提出了儿种改进的基音检测算法:(1)基于倒谱修正模型的语音基音检测算法,(2)改进的平均幅度差函数语音基音检测算法,(3)基于小波变换的含噪语音基音检测的改进算法。实验结果表明,本文提山的改进算法与对应的基本算法及其相关改进算法相比,基音检测精度特别是在噪声环境卜的基音检测精度有了不同程度的提高。另外,基音在说话人识别中应用的仿真结果也表明:基音与倒谱类特征参数PLPCC、MFCC、LPCC的组合应用,可以提高识别系统的识别率和鲁棒性。
本文还就基于性别特征和年龄特征的说话人分类问题进行了研究。针对成年说话人性别的分类问题,提出了一个基于基音与RASTA-PLPCC组合特征参数和GMM模型的改进算法,获得了很高的分类精度和很好的鲁棒特性。针对儿童与成年说话人的分类问题,提出了一个采用基音、共振峰、RASTA-PLPCC及其差分RASTA-PLPCC参数为组合特征参数的分类算法,实验结果充分显示出该算法在儿童与成年说话人分类上的有效性。