论文部分内容阅读
如何提高说话人识别系统的识别率和鲁棒性,一直是语音识别领域研究的重点;而说话人识别系统的安全性能,又会影响其后续的推广与应用。在实际应用中,说话人识别系统会受到假冒声音的攻击,而利用录音设备录制说话人的声音再通过回放来攻击说话人系统是相对容易的。所以,能够设计出具有识别回放录音功能的说话人系统是很有必要并且具有实际应用意义的。 本文从提高说话人识别系统识别率、鲁棒性和安全性出发,对语音特征参数的提取方法进行了改进,并对如何防止录音回放攻击进行了实验研究,最终实现了具有良好性能的防录音回放攻击的说话人识别系统,主要内容如下: 1、在实验室现有语音库的基础上,建立了回放录音库。 2、提取出了更符合人耳听觉特性的特征参数GCFCC,该提取方法不仅用更符合人耳蜗基底膜特性的Gammachirp听觉滤波器代替MFCC中的三角滤波器,而且还从听觉神经元动作电位发放率与声强的饱和关系出发,拟合发放率—声强幂函数曲线,用拟合得到的幂函数取代MFCC的对数函数。在基于GMM的说话人辨认系统中进行实验,实验结果表明,同MFCC相比,使用GCFCC特征参数的说话人辨认系统在识别率和鲁棒性上均有明显提高。 3、建立了基于语音静音的录音检测模块,其中用自适应子带谱熵法提取静音,并针对信道信息本身的特点改进了MFCC特征。通过用GMM-UBM模型作为录音的检测模型,建立录音确认模型,验证了方法的有效性。 4、将建立的录音检测模块应用在基于GMM的说话人识别系统的前端,并与没有加入录音检测模块的GMM说话人识别系统的性能进行对比,实验结果显示加入录音检测模块的说话人识别系统的等错误率下降了20%左右,证明本文建立的录音检测模块能够提高系统的安全性。最后对本文的全部工作进行了总结,并进一步指出本文研究的不足之处和改进方向。