论文部分内容阅读
声纹识别是语音信号处理领域重要的研究方向,目前最重要的应用是在语音中获得说话人身份,在银行、公安系统和智能家居等领域广泛应用。虽然目前声纹识别技术得到快速发展,越来越多的声纹识别技术不断被应用到实际的智能语音相关产品和服务中,但在实际应用中,现有技术仍然面临诸多挑战。如合成语音和录音重放语音对声纹识别系统进行攻击就是其中最重要的挑战之一。另一方面,注册和测试语音的声学环境不匹配的声纹漂移现象也会严重导致声纹识别系统性能下降。基于以上问题,本文围绕声纹识别领域的声纹确认任务,从话者不同发声方式的角度来探究声纹特征的鲁棒性,首先构建了一个不同发声方式的声纹数据库,然后在此基础上探究了基于传统的高斯混合模型,动态时间规整以及深度学习的声纹确认系统性能。主要工作及创新如下:首先,构建了基于不同发声方式的声纹确认语料库。因为当前开源语料库的缺失,没有带非正常的发声方式语音的语料用于声纹确认系统的构建,因此构建含多样化的发声方式的声纹确认语料库是本文的基础。基于本语料库,在不同的声学特征参数空间研究了不同发声方式的语音对于提取说话人身份信息的区分性。结果表明,在一定程度上,非正常说话发声方式的语音比正常说话语音对于确认说话人身份信息而言更具有区分性。其次,构建了基于传统识别模型的声纹建模系统。详细介绍了特征提取、特征预处理、动态时间规整算法、通用背景模型的训练方法、最大后验似然估计的自适应过程及其后端得分算法。探讨了文本相关和文本无关声纹确认任务在传统的声纹识别系统表现。实验结果表明,动态时间规整算法和高斯混合模型在相关的声纹确认任务中表现良好。再次,构建了基于深度学习的声纹确认系统。探讨了使用时延神经网络和中间统计层的方法直接提取完整语音的统计量作为句子级别的输入来表征语音中所含的声纹信息的方法。实验结果表明,该方法的性能超越传统声纹识别系统,具体而言,本文研究的系统在多样化发声方式发声的语料库上,哼唱和歌唱发声方式能达到与正常说话方式相近的等错误率,甚至在一定程度上非正常发声方式的语音比正常说话发声方式的语音更适合声纹建模。本文在传统的声纹确认理论基础上,提出基于多样化发声语音的声纹确认研究。本研究的目的是解决声纹确认系统在正常说话语音的条件下易被攻击的弱点和探究不同发声方式的语音声学漂移现象对声纹系统的影响。研究内容为后续声纹确认研究的多样性提供了参考,从新的角度解决声纹确认存在的一些问题。