论文部分内容阅读
重播他人语音以冒充他人身份会为社会安全带来严重威胁。已有的研究及实践均证明目前的说话人识别系统(Automatic Speaker Recognition,ASR)很难抵抗重播攻击。同时,这种攻击方式还具有便捷低廉的特点。因此,语音重播攻击相关的安全问题研究具有重要的现实意义。然而,目前此类研究仍然相对较少,并且一般集中于利用传统的信号处理方法进行重播语音检测,其特征提取较为复杂且不稳定,具有较大的局限性。为此,本文在数据智能驱动下的深度学习框架内对语音重播攻击的检测算法进行研究,旨在有效区分重播语音和原始语音。具体内容如下:1.提出基于卷积神经网络(Convolutional Neural Network,CNN)模型的语音重播攻击检测算法。所提出的网络结构依据语音信号的时频特征进行特殊设计,与时频图的特征分布特点高度契合,能将训练参数分配到更合理的地方,从而能使用更有效的特征来训练更紧凑的参数,因而大大降低了模型过拟合风险。同时,由于已有的算法通常缺乏通用性,即没有考虑对抗不同录音场景的鲁棒性,本文针对不同的说话人、不同的文本内容、不同的录制设备及不同的录制距离等核心影响因子进行系统的研究与测试。实验结果表明该算法对不同影响因子下的重播语音检测率均达到了99.8%以上,说明该算法具有优良的通用性,另外,本文采用时长0.2秒极短语音段作为检测数据得到以上的准确率,说明所提算法在实际应用场景中具备适用性。2.提出基于循环神经网络模型(Recurrent Neural Network,RNN)的端对端重播攻击检测算法,该算法直接对语音波形数据建模。CNN模型只能对固定长度的语音段进行检测,而RNN的模型则适用于语音长度不定的场合。所提模型采用多组不同长度的一维卷积核及较大的卷积步长来提取语音波形的时序特征,并通过RNN积累历史信息并进行检测,最终实现对各种不同长度的重播语音的端对端检测算法。结果表明该算法对于0.5秒语音段语音有99.3%以上检测率,并随语音段长度增加而增加。但由于语音波形数据特征的稀疏性,基于波形的RNN模型对于极短语音段的检测性能并不理想,对0.2秒语音段只有95.9%的检测率。因此,在此基础上继续提出基于语谱图的RNN模型,并采用迁移学习的方式进行训练。本模型利用特征更为集中的语谱图作为输入;同时,工作1中基于语谱图的CNN模型在0.2秒语音段取得极高的检测率,表明其提取的特征非常有效,因此本工作采用工作1中部分参数来初始化本部分的模型(迁移学习)。实验结果表明该方法极大地提高模型对极短语音的鲁棒性,在0.2秒长度语音段的检测率达到99.3%,并随着语音段长度的增加,检测率越高。本文所提的语音重播攻击检测算法具有优良的性能,可作为ASR系统的检测模块,使其具备抵抗语音重播攻击的能力,对信息安全建设具有重要意义。