论文部分内容阅读
说话人识别技术是指利用说话人的语音特征来辨别他们的身份,属于生物认证技术的范畴,广泛应用于司法鉴定、互联网安全,军事国防等领域。说话人识别技术在实用化过程中还存在诸多问题,其中短语音条件下的训练识别问题受到人们广泛关注。当语音数据充足时,现有说话人识别方法已经取得良好的识别效果,但是当语音数据有限,特别是训练和识别语音长度都在10s左右,系统识别性能明显下降。这是因为主流的说话人识别方法大多基于概率统计模型,而这种模型训练需要大量的语音数据。本文主要针对说话人识别的短语音问题,从识别模型出发展开研究,本文的主要工作包括:1.通过分析稀疏表示的分类原理以及处理有限数据的能力,将稀疏表示理论引入短语音说话人识别。首先,寻求待测语音在训练语音构成的稀疏字典上的最稀疏的线性表示,然后利用表示系数重构原始信号,根据重构的残差进行分类。接着介绍主流的l1范数最小化算法,通过实验估计其识别性能。2.针对稀疏编码模型对编码残余的高斯分布假设,分析在实际环境中,这种假设不能有效地描述重构残差。本文引入稳健回归思想,放宽对重构残差的分布约束,通过假设重构残差和表示系数独立同分布,将稀疏编码问题转化为稀疏约束下的稳健回归问题,我们称其为稳健稀疏表示模型。实验表明该方法能够更加有效地估计重构残差,提高了系统的鲁棒性和识别性能,最佳识别率可达99.31%。3.深入研究稀疏表示分类器的工作机制,经过分析得出在识别任务中做出贡献的除了稀疏性约束,还有利用所有训练样本联合表示测试样本的联合表示特性。稀疏性约束在识别任务中的功能主要表现在使得与测试样本相同类别的子字典能够用更少的样本准确表示测试样本,这要求训练语音数据充足,而短语音识别任务不能满足这个条件;另一方面,稀疏表示中的l1范数的稀疏约束计算成本较高,严重影响系统的实时性。针对稀疏约束的不足,引入正则化最小二乘思想,提出基于联合表示的说话人识别方法。这种方法不仅有效地提高系统的识别率,识别速度也有极大的提高,识别单个样本在0.045s左右。