论文部分内容阅读
近十几年来,相较于传统身份认证方法,生物身份认证技术得到了研究人员的广泛关注和深入研究,其中说话人识别(speaker recognition)技术是一个新的研究方向。说话人识别即为通过人的声音来判断其身份,同目前已在实际当中广泛应用的指纹,面部特征,眼睛虹膜识别一样,都属于生物身份认证技术。与其他生物身份认证技术相比,说话人识别具有很大优势,如:生物特征采集所用设备普及度高,整个认证过程无侵袭性等。因此,将说话人识别应用于实际意义重大。但是,现实应用中普遍存在的语音缺失和环境噪声问题,对说话人识别方法的鲁棒性提出了很高的要求,这也成为说话人识别方法研究当中的难题。目前,几乎所有的说话人识别方法都是基于模型匹配的思想,所以研究重点都集中在说话人模型的建立上面。常见的方法中,高斯混合模型(Gaussian Mixture Model,GMM)应用最多,特别是在其基础上发展而来的高斯混合-通用背景模型(Gaussian Mixture Model-Universal Background Model,GMM-UBM)和高斯混合-支持向量机模型(Gaussian Mixture Model-Support Vector Machine,GMM-SVM)都取得了非常不错的识别效果。但是对于只有少量语音数据或环境存在噪声的情况,识别率明显下降,虽然有许多改进的方法相继提出,但识别的鲁棒性离实际要求还是有不小的差距。针对上述问题,本文主要研究少量数据以及训练和测试环境不同时存在噪声情况下的鲁棒说话人识别方法。首先,针对只存在少量语音数据的问题,提出一种基于稀疏编码的说话人识别方法。该方法在训练阶段,分别为每个说话人训练字典,然后根据重构误差进行打分识别。在不含噪声且数据不充分的情况下,将传统经典的GMM-UBM和GMM-SVM方法与所提出方法进行对比。然后,在目前应用形态成分分析(Morphological Component Analysis,MCA)的说话人识别方法基础上,借鉴GMM-UBM的思想,提出一种新的说话人识别方法,该方法训练一个背景字典,目标说话人字典由背景字典优化生成,引入一个噪声字典,将这三种字典最后拼接成一个大字典用于稀疏分解,从而使得说话人识别对混噪测试语音具有鲁棒性。借助S-SGK(SparseSequential Generalization of K-means)混噪信号字典训练算法,提出了一种针对训练语音混噪情况的鲁棒说话人识别方法。本文进行了大量的实验,结果表明在语音数据不充分的情况下,提出的基于稀疏编码的说话人识别方法效果较GMM-UBM和GMM-SVM的识别效果有较大提升;分别在人为合成混噪测试语音和混噪训练语音两种条件下,提出的基于MCA和基于S-SGK字典训练算法的说话人识别方法,比其他一些常见方法具有更高的识别准确率。