论文部分内容阅读
说话人识别是一种通过分析话者声音中带有身份信息的特征来对话者身份进行识别的技术。它是一个综合了多个学科的研究课题,它交叉运用心理学、生理学、数字信号处理、模式识别、人工智能等不同领域的知识。以应用在需要进行身份认证的各种安全领域、互联网应用及通信领域、呼叫中心领域等。目前,说话人识别的技术已经日臻成熟,但在真实的使用环境中,说话人识别系统对噪声的抗干扰能力,即噪声鲁棒性问题仍是较大的困扰,也是对其的广泛应用产生了巨大阻碍。本文便针对此问题进行研究。本文以说话人识别和稀疏分解技术为背景,分析经典高斯混合背景模型(Gaussian Mixture Model-Universal Background Model,GMM-UBM)方法与身份认证矢量(Identity Vector,i-vector)方法的优劣,并着重研究稀疏分解在说话人识别领域的应用,主要目的是提高噪声环境下的说话人识别系统识别率,以及减少内存,提高计算速度等。首先,本文对语音信号及说话人识别的基本原理进行了分析。从语音信号的声学产生机理、信号的预处理(端点检测、分帧、加窗)、梅尔倒谱系数(Mel-Frequency Cepstrum,MFCC)等常用特征的提取、系统识别率的判断参数都做了详细介绍。另外,还分析了经典的GMM-UBM系统模型及算法。然后,本文对业内最为流行的身份认证矢量(Identity Vector,i-vector)特征框架进行了分析,对i-vector的概念原理、提取方式进行了叙述和验证。同时对泛用的线性判别分析(Linear Discriminant Analysis,PLDA)也进行了阐述。另外,还介绍了几种对i-vector的信道补偿方法,如线性区分分析变换、长度规整和数据白化等。使用Timit语音库进行实验验证,得到其在纯净语音环境下识别率较高,噪声环境下鲁棒性较差的结论。接下来,本文提出了一种基于字典学习和低秩矩阵分解(Low Rank Structured Dictionary Learning,LRSDL)的说话人识别系统。受字典学习和低秩矩阵分解在图像和语音增强领域的应用启发,我们将说话人的i-vector特征作为字典原子,将低秩矩阵分解添加到字典学习中,从而得到带有说话人i-vector共性特征和噪声的低秩字典,使最后测试语音的i-vector在子字典上的投影少受到共性和噪声部分的干扰,提高识别的准确率。最后,针对信噪比低时,两种方法识别率均较低的问题,本文提出了一种基于LRSDL和i-vector融合的说话人识别系统,在打分阶段对i-vector\PLDA和LRSDL方法的打分结果进行加权平均,结果表明这种方法能在低信噪比环境下对系统性能做出有效改善。