论文部分内容阅读
语音唇动关联性分析是利用发音过程中唇动与语音之间的因果关系来判断两者的变化是否同步一致,在电影口型匹配,视频中的说话人分割等多媒体处理领域有着广泛的应用。现有录音回放攻击检测手段主要是基于语音单一模态,即使利用音视频双模态信息也只是通过融合两者的认证得分来提高系统的安全性,这样处理虽起到一定的抗攻击作用,却忽视了语音变化和唇部运动间的强相关性这一重要的活体检测信息。本文针对语音唇动关联性分析及其在录音回放攻击中的应用展开研究,主要工作和贡献如下:(1)开发了基于语音唇动一致性分析的录音回放检测平台SCUT-AV Playback Detection System,该平台可进行录音回放攻击检测,语音唇动关联性及时延分析等实验研究。探讨了音视频结合的回放检测系统可能面对的各种攻击,定义了四类语音唇动不一致数据。为构建四类不一致数据进行实验分析,对国内外的双模态数据库进行研究,选用VidTIMIT、CUAVE和中文通用库作为主库,并针对VidTIMIT库存在数据不全面的问题,自建了一个双模态数据库作为补充。同时,为深入探讨韵母语音唇动关联度的需要,从中文通用库中切取不同韵母的音视频数据建立了一个韵母单元数据库。(2)传统语音唇动分析模型忽略了发音过程中语音与唇形变化在时域上的动态联系,本文基于时空联合分析思想,提出基于时空相关度融合的语音唇动一致性检测算法。先通过唇宽、唇高与语音幅度变化之间的联系获得语音唇动的时域相关度;再由协惯量分析(CoIA)求得语音与唇部像素空间特征的相关度。并探讨语音唇动一致和不一致数据在时延上的差异,针对典型相关分析和二次互信息两种算法(MI)时延估算结果易受样本数量和参数影响等不足,提出基于Co IA的时延估算方法,其估算准确率达95.4%,较前两者分别提高了9.7%和4.9%。利用此算法对音唇一致和不一致的数据进行时延估计,统计出一致数据的合理时延分布范围,并结合两者在相关度上的差异提出一种奖惩机制对相关度得分进行修订,最后通过置信度对时空域上的得分进行融合来度量一致性。实验表明,对于四类不一致数据,与单独基于XY空间唇部特征的分析模型相比,时空融合方法的等错误率(EER)平均下降了约8.2%,而且采用新的得分修订方法后对四类不一致数据的EER也较采用前平均下降了5.4%。(3)目前,统计类与相关法类等分析方法忽略了唇动帧间时变信息,且难以反映出包含发音规律的时空结构性信息,本文利用音视频联合原子作为描述不同音节发音时音频与唇形同步变化关系的模板,提出基于音视频移不变(SI)学习字典的语音唇动一致性判决方法。分别通过时域、时空域SI稀疏表示模型描述共同时轴上的语音和唇动信号,由联合字典学习算法训练音视频字典,并对算法稀疏编码部分的平移集合矩阵维度过大的问题采用新的映射方式进行改进,然后依据学习所得字典提出新的语音唇动一致性判决准则。实验结果表明,与统计类方法中的CoIA以及MI法,相关法中的双模态线性预测法和归一化相关系数结合SVM的方法相比,对于小词汇量语料,本文方法总体EER分别下降了9.1%,17.6%,13.9%和10.5%;对于大词汇量语料,总体EER也分别下降了3.2%,12.4%,7.2%和4.1%。(4)(2)和(3)的方法均对整句话进行分析,并无对唇形变化显著或语音唇动关联性较强的信息加以区分,存在运算量大,分析结果易受静音及弱关联片段影响等不足,借鉴假唱鉴别中只以显著嘴型段为参考的思想,以唇型变化较明显的韵母为代表性发音事件,提出基于韵母发音事件音视频匹配及位置时延分析的一致性分析方法。先对字典学习数据进行韵母段筛选,并提出一种音视频结合的韵母切分方法,其切分准确率达93.5%;利用(3)中方法获得韵母字典并进行韵母事件匹配分析,同时加入对事件发生位置的时延分布分析,再由GMM模型融合这两种分析的得分进行判决。实验表明,该方法训练和分析的运算量较(3)下降了35%,总体EER较(2)和(3)下降了2.1%和4.6%。接着对韵母单元进行深入分析,采用动态口型序列特征通过凝聚层次聚类对韵母进行归类,并利用相关度分析选出关联度较强的类别共19个韵母作为“特定发音单元”,提出基于特定韵母发音单元的一致性检测方法。实验表明,采用特定韵母单元代替整句进行一致性分析是可行和有效的,其中对一至三类不一致数据的EER更分别降低了1.2%,0.9%和0.5%,运算量也显著减少。而且融合韵母位置时延分布得分后,对三、四类不一致数据的EER较融合前降低了4.9%和10.6%,总体EER降低了4.8%。