论文部分内容阅读
数字音频盲取证通过直接分析数字音频信号本身对其真实性、完整性、原始性和可靠性进行检测和验证,是多媒体信息安全中必不可少的一环。本文针对数字音频盲取证的关键问题:(1)开集的录音设备源识别;(2)信道失配条件下的说话人识别取证;(3)说话人认证系统中录音回放攻击取证,从设备信道信息与数字音频的特有关联性出发,提出“信道指纹”和“信道模式噪声”的概念,在信号空间、特征空间、模型空间对信道信息进行表征,达到盲取证的目的。主要贡献如下:(1)针对目前没有专门用于数字音频取证研究的语音数据库,建立了“多设备录音回放语音数据库”,包含21男20女的数据,采用25种录音和3种回放设备,语料包含短语、数字串、句子、段落等。该数据库已被中文语言资源联盟(CLDC)收录并发布(No. CLDC-2012-003)。开发了数字音频取证平台SCUT-AudForensic,包含特征提取、模型训练、测试识别等功能模块,包含GMM、HMM、SVM三种模型,采用LPC、LPCC、MFCC三种特征,可进行说话人识别、录音设备源识别、录音回放攻击取证等实验。通过实验研究对特征进行统计分析,探索描述信道信息的统计特征,提出统计帧分析方法,研究信道信息的频率特性,表明信道信息主要集中在信号的低频部分。(2)针对开集录音设备源识别问题,提出基于设备信道信息和设备通用背景模型(DUBM)的录音设备源识别算法。首先建立基于两步判决的开集设备源识别数学模型,由于静音中包含完整的设备信息,且不受文本、说话人等因素的影响,在静音的基础上采用Mel倒谱系数和线性预测系数提取设备信道特征。利用8种麦克风的数据训练DUBM,通过自适应算法获得集内设备模型(DGMM)。实验结果表明,对36种设备的平均正确识别率比基于高斯超矢量和SVM的设备源识别算法提高了9.22%;对18个集内和18个集外设备的等错误率为15.37%,集内正确识别率为90.07%。(3)针对(2)中算法存在受背景噪声影响大、对短时样本识别率低、无法自动选择最优判决阈值的问题,提出基于改进功率归一化倒谱系数(PNCC)和两步区分性训练的设备源识别算法,利用PNCC的长时帧分析去除背景噪声对设备信息的影响,通过两步区分性训练调整DGMM和DUBM,提升模型区分能力,并通过区分性训练获得最优判决阈值。对短时训练和测试样本,对36种设备的平均正确识别率比(2)中算法提高8.86%;18个集内和18个集外设备的等错误率为15.17%,集内正确识别率为96.65%。(4)针对说话人识别取证中信道失配问题,分别在信号空间、特征空间、模型空间进行信道映射,以降低信道失配的影响。在信号空间,用对数扫频激励信号测量出信道的冲激响应,通过反滤波器建立测试数据和训练数据的信道映射;在特征空间,利用期望最大化(EM)算法获得信道映射的通用形式,并获得线性信道映射的最优参数解,具体讨论只存在信道偏移时的最优参数解;在模型空间,利用EM算法获得信道映射的通用形式,分别求得信道映射为单高斯、混合高斯模型时的最优模型参数。实验结果表明,信号空间的信道映射算法最优,但需预先测量设备信道响应,特征空间的信道映射略优于模型空间的信道映射。(5)针对说话人认证系统中录音回放攻击问题,提出基于信道模式噪声的录音回攻击取证算法。通过分析原始语音和回放语音的生成模型,研究原始语音与回放语音存在区分性的本质,提出信道模式噪声的概念。利用去噪滤波器提取信道模式噪声,通过统计帧分析方法提取6阶Legendre系数和6个统计特征,利用GMM建立原始语音信道噪声模型。实验结果表明,录音回放攻击取证的等错误率比基于信道相似度的录音回放攻击取证算法下降了9.91%;加入了本录音回放攻击取证模块后,对包含原始语音和回放语音的说话人确认实验结果表明,等错误率比未加入前下降了28.92%。(6)针对(5)中算法存在去噪滤波器时变性不强、模型区分性不够、判决阈值变动性大的问题,提出基于经验模态分解去噪滤波(EMDF)的录音回放攻击取证算法。主要利用EMDF作为去噪滤波器自适应去除时变语音信号中低频信道噪声,提取信道模式噪声。选取部分回放语音建立回放语音通用背景模型(PUBM),具有回放语音的共性,可作为判决时的先验知识。实验结果表明,录音回放攻击取证的等错误率比(5)中算法下降了4.23%;加入了本录音回放攻击取证模块后,对包含原始语音和回放语音的说话人确认实验结果表明,等错误率比未加入前下降了31.94%。