论文部分内容阅读
随着声纹认证技术不断发展,各种欺骗性语音对声纹认证系统的攻击也日趋严重。其中,回放语音因直接来源于目标说话人的真实声音,获取简单,并且不需要攻击者具备专业的知识,对声纹认证系统的威胁性最大。同时,随着音频编解码技术的成熟,高保真的录制设备和回放设备能够做到最小失真录制和高保真的回放,使得回放语音攻击声纹认证系统更容易实现。因此,如何对回放语音进行有效的检测成为声纹认证领域亟待解决的问题。本文对多场景下回放语音检测的关键技术进行研究和探索,深刻剖析了现有研究方法的思路、原理以及特点,发现现有的算法中存在检测率不高、鲁棒性不强、算法复杂度相对较高等缺点。根据现有算法的不足,开展了以下三部分的研究工作。1、从时域和频域两个角度细致分析了回放语音与真实语音的差异。研究表明,回放语音受不同回放配置影响会出现不同程度的失真,其失真信息主要分布在高频区和低频区。为度量回放语音相较于真实语音的失真大小,探究录制设备、回放设备以及声学环境对回放语音质量的影响,本文构建了相对熵特征。实验结果表明,三种因素中回放设备是影响回放语音失真大小的主要因素;当回放设备的质量由低变高时,其相对熵的波动范围最大,熵值从0.83降低到0.12。次要的因素是录制设备,当设备质量变化时其相对熵的值从0.25变化到0.05。影响最小的因素是声学环境,当声学环境质量由低变高时,其熵值从0.27降低到0.11。2、针对现有算法检测效果不佳、鲁棒性不强的问题,提出了两种高性能、高鲁棒性的回放语音的检测算法。方法一在特征层面和分类器层面对回放语音和真实语音进行频率子带分析,然后根据子带的等错误概率比值修正了每个频率子带的滤波器个数和类型,从而提出一种基于修正倒谱特征的回放语音检测算法。实验结果表明,该方法相较于现有的算法的检测性能有明显的提升,其等错误概率为9.77%,相较于该数据库的基线有59%的提升。方法二在语音信号的时域进行带阻滤波,仅保留有差异性信息的低频信号和高频信号。然后将滤波后的语音信号提取其滤波倒谱系数。实验结果表明,该方法能够有效的检测回放语音,其相较于基线系统有57.9%的提升,等错误概率为10.34%。3、针对信道信息对回放语音检测性能干扰的问题,本文提出使用归一化的信道补偿方法去除信道信息的影响。通过建立回放语音的数学模型,研究了信道信息在回放语音中的分布;提出在特征层面使用归一化方法进行信道补偿。为验证本文提出方法的有效性,将本文提及的六种倒谱特征应用了四种不同的归一化方法进行了实验验证。实验结果表明,四种归一化方法能够不同程度的提升现有算法的检测性能。其中,CMVN和QCN表现出最好的性能,在基线系统中,两种归一化方法对算法性能的提升分别为43.30%和36.95%。在本文提出的方法中,两种归一化方法对性能的提升均超过65.00%。