论文部分内容阅读
在说话人确认中,由于语音具有易变性,在说话情境(说话场景、通信信道)不同时,不管是主观听感还是客观频谱上,即使是同一个说话人的语音,都会表现出很强的差异性。如何针对不同情境的语音数据,提取出最具说话人个性的特征参数,建立鲁棒性的说话人模型,成为说话人确认领域的研究热点和难点。本论文针对实际环境下的说话人确认进行研究。
在特征提取过程中,声学特征仍然是区分性最高的参数。录制的语音数据中除包含有用语音信息外,还包括静音和背景噪声。高效快速地检测静音和从背景噪声中提取说话人信息,以及采用去噪的手段提高声学参数的鲁棒性,是提高说话人确认系统性能的关键所在。复杂情境下语音数据中存在“喷麦”现象和能量极低现象,传统基于能量的活动语音检测算法(VAD)针对这两种现象无法正确切分出语音帧和非语音帧。本文采用滤波器预处理和谱熵的方法分别处理上述两个问题。还采用基于MMSE_ LSA的语音增强算法,用于去除语音数据中的背景噪声。
在模型构建阶段,目前说话人确认任务中主流的联合因子分析算法(JFA),采用串行方式估计说话人空间和信道空间,不可避免地产生空间重叠现象。本文提出两种解决空间重叠问题的方法:基于施密特正交化的空间变换和基于信号子空间的空间变换。实验表明,采用这两种空间变换后,系统性能有一定的提升。
同时,对于复杂情境下变量空间更加多变的特性,全变量(Total Variability)算法更适合描述变量空间。本文提出通过空间拼接的方式得到全变量空间,这样既大大缩短空间估计时长,又保证系统识别性能。在此基础上还进行因子拼接,融合两种全变量算法中得到的全变量因子(i-vector)。在NIST SRE2008核心测试中的电话信道注册-电话信道测试任务上,相对基线系统,男声和女声测试的等错误率分别下降9.94%和5.70%