论文部分内容阅读
文本无关的说话人识别是目前语音信号处理的一个重要研究方向,其广泛的应用于公安、军队、金融等领域的身份验证和信息检索,使得说话人识别技术在全世界各研究机构的努力下不断发展和革新。为了考察语音技术的最新研究和发展水平,美国国家标准技术委员会(NIST)于1996年开始组织了说话人识别的评测,NIST也代表了全世界说话人识别领域的最高水平。它设立了多个评测任务,并为每个参赛单位提供了统一的多通道和多环境的电话和广播语音、测试规则和标准,用于研究不同环境和条件下的语音技术的研究方法。在NIST SRE中,用长语音进行说话人识别是说话人识别任务的一个子任务,就是为了研究如何用语音信号中的高层信息经行话者确认而设置的。除了我们常用的梅尔倒谱特征参数MFCC,语音中的高层特征参数也是一种用于说话人识别的有效特征参数,但其往往是与文本内容有关的,因此如何从语音信号中提取出文本无关的高层特征参数用于说话人识别是目前研究的焦点。本文在如何提取韵律特征的参数及结合高斯混合模型用于说话人识别进行了探讨。针对上述问题,本文所做的工作主要有以下3点:(1)本文首先详细介绍了常用的基频提取方法:自相关函数法、循环幅值差分函数法、倒谱法,通过实验,研究了基频提取的正确率对基于超音段韵律特征参数的说话人识别系统性能有较大影响,并提出了改进的基于循环幅值差函数法和倒谱法的方法,对这四种方法经行了实验对比。通过实验验证,各项指标包括均方根误差,基频正确率和严重错误率表明,改进的基于循环幅值差函数法和倒谱法的方法,也即是本文的方法比其他三种中任何一种要好。(2)本文通过实验说明了不同的说话人超音段韵律特征分布的差异,并根据这种差异,构建了基于超音段韵律特征的高层说话人特征参数。结合经典的GMM-UBM-MAP的识别模型,搭建了基于超音段韵律特征参数的说话人识别系统,通过实验,该系统单独用于说话人识别的等误识率EER达到17.77%。(3)短时特征参数MFCC反映了说话人的声道特征,而超音段韵律特征参数以基频为主线,反映了说话人的音源特征,二者从不同角度反映了说话人的特征信息,可以相互补充的提高说话人识别系统的性能。本文提出基于怀疑距离的系统融合,实验结果表明,相比较于常用的输出评分等权值相加方法和经验权值线性融合方法,从DET曲线和EER来观察,有一定的提高。并研究了不同的融合区间,发现选取一定的怀疑区间,特别是一定范围高于阂值的怀疑区间能使系统的性能有一定提高,EER从5.92%提高到了4.95%,相对有16.39%的提高。