论文部分内容阅读
为了考察和衡量文本无关的说话人识别的最新研究发展状况,美国国家标准与技术署(NIST)自1996年起开始举办说话人识别评测(SRE)。NIST说话人评测代表了了说话人识别领域的最先进水平,NIST设立了多项任务,探索和研究不同语音条件下的研究方法,并为各个项目提供统一的电话语音数据(多通道、多环境、说话人规模大)、测试平台、评测规则,以及评估标准。其中,采用长语音的说话人识别项目旨在利用语音信号中的高层次信息用于文本无关的说话人识别的研究,近年来,已经成为国外一些著名机构的研究热点。语音中的高层次信息往往是与文本内容有关的,因而如何从语音中提取出用于文本无关说话人识别的高层次信息特征便成为当前研究的重点。本文对韵律、发声特点等高层次特征信息的提取方法及其用于文本无关的说话人识别进行了深入研究。针对文本无关的说话人识别的特点,本文采用了概率统计模型的识别方法,将从与文本有关内容的语音韵律(X~t,X为语音特征)中的信息特征看作由韵律特征基元(称作超音段韵律信息特征)所组成的,通过对韵律特征基元分布的概率统计描述来实现说话人辨识。本文提出了一种基于多尺度小波分析从韵律中提取超音段韵律特征的方法,分别用于音源FO~t和声道MFCC~t的超音段韵律特征的提取。由描述缓变信息的概貌系数和描述快变信息的细节系数组成音源FO~t的六维超音段韵律特征参数PFO;而对于高维的声道MFCC~t,由于其各维参数的近似不相关和声道缓变的特点,从MFCC各维分别提取概貌系数组成声道超音段韵律特征参数PMFCC。在NIST 06 8side数据库上的实验表明,PFO与短时FO相比,系统EER相对降低了23.66%,PMFCC达到了与短时倒谱参数MFCC相当的性能。鉴于音源参数与声道参数的互补性,本文研究了音源超音段韵律参数PFO与声道超音段韵律参数PMFCC的组合参数PMFCCFO。PMFCCFO较MFCC在NIST06 8side数据库EER相对降低40%,在微软数据库的实验则表明了PMFCCFO有较好的噪声鲁棒性。采用PMFCCFO与短时参数MFCC的子系统输出评分线性加权后,可进一步提高系统的识别性能。NIST 08 3side评测任务中,采用了基于PMFCCFO的子系统与采用短时参数子系统的等权重输出评分加权,在电话语音条件下取得了最佳的DET曲线。本文还对从短时倒谱中间接提取发声位置特征用于文本无关说话人识别进行了研究,提出了一种基于特征空间映射的发声位置特征的提取方法,利用大量说话人的标准语音训练得到的MLP作为所有人共享的特征映射网络,提取出发声位置参数AF。AF参数反映了说话人的发声特点,与说话人发声器官物理属性和后天发声习惯相关,含有说话人信息,具有较好的噪声鲁棒性。与短时倒谱参数MFCC组成联合参数MFCCAF后,明显改善了说话人确认系统性能的性能与鲁棒性。