论文部分内容阅读
本文对人类的声纹中普遍存在的时变现象进行了深入研究,主要工作包括:1.建立了一个适合于声纹时变性研究的声纹数据库Chronos。在综合分析了现有的时变声纹数据库的基础上,提出了时变声纹数据库的总体设计原则:“尽最大可能保证时间是唯一变化的因素”。采用固定语料作为录音提示文本以尽量减少语音内容差异带来的影响,要求说话人以朗读方式发音以尽量减少说话方式变化带来的影响。数据库录制采用梯度的时间间隔,即“最初语音采集比较频繁,之后间隔越来越长”,既保证不同时间间隔的覆盖性,又可减少录音成本。2.提出了说话人确认系统时变鲁棒性的综合评价准则。对于时变说话人确认系统而言,每次录音会话均存在一个等错误率;等错误率的均值代表了系统的平均性能水平,而标准差则代表了系统性能随时间的变化性,因此本文以这一系列会话的等错误率的均值和标准差作为衡量系统的时变鲁棒性的重要评价指标,并定义两者的乘积为时变鲁棒性的综合评价准则。3.提出了基于以F-ratio为中间准则计算频带区分度的时变鲁棒特征提取算法。提出了频带整体区分度的概念,验证了不同频带对于时变说话人识别具有不同区分度的假设。采用基于频带能量的F-ratio为中间准则来计算各个频带的整体区分度。探讨了两种提高时变鲁棒性的特征提取方法:在传统MFCC计算过程中的滤波之前进行频率弯折以及滤波之后对滤波器的输出进行加权。前者是通过增加或减少滤波器的数目(调整滤波器分辨率)来强调或弱化相应频段,而后者则是通过直接对滤波器的输出进行加权来强调或弱化相应频段。两种方法相对于MFCC特征,说话人确认的时变鲁棒性综合评价指标分别提升26.90%和5.45%。4.提出了基于性能驱动的频率弯折方法的特征提取算法。本算法以性能(时变鲁棒性综合评价准则)作为目标函数去优化频带的整体区分度:在保持其他所有频带分辨率不变的前提下,单独强调某一指定频带所对应的系统性能作为该频带的整体区分度指标。据此对各频带分别进行相应的频率弯折,得到性能驱动的声纹特征。该特征可将说话人确认的时变鲁棒性综合评价指标提升32.47%。5.提出了基于区分性训练的滤波器输出加权方法的特征提取算法。本算法也是性能驱动的方法,利用具有区分性的特征提取的思想,给定滤波器输出权重一个初始序列,经过建模和打分过程,依据系统反馈的性能、通过根据时变鲁棒性综合评价指标而提出的MCE*MSV准则来自动调整输出权重,如此反复迭代,直到收敛到一个性能优化的权重序列。据此对各频带对应的滤波器输出进行加权,得到声纹特征。该特征可将说话人确认的时变鲁棒性综合评价指标提升34.08%。