论文部分内容阅读
本论文研究的是复杂信道情况下的与文本无关的说话人识别问题。本论文的目标是在保证实时实现的基础上尽量提高识别率,在这篇论文中,从前端特征抽取,GMM UBM模型下的测试得分,支持向量机系统下的特征参数、正负样本选取,信道空间估计等各个方面展开了研究,提出了一系列新算法,并且获得了实验的证明,主要集中在以下几个方面:说话人识别最常采用的是固定帧长、帧移的声学参数,这种算法中清音和浊音是同等对待的。由于清音是一种类白噪声的信号,而浊音是一种准周期的信号,反应的是说话人声道变化的情况,浊音包含有更多的说话人信息。因此,在本文中求取特征参数时不固定帧长,对浊音进行适当的加权处理。通过动态的参数处理,相对于固定帧长的参数等错误率有10%左右的下降。说话人识别的主流算法是混合高斯模型,在测试的时候,采用的是求对数似然度的方法,本文另外提出一种采用模型距离央角的判决算法,这种算法不仅能够取得与对数似然度算法相近的识别率,而且可以与对数似然度算法的得分融合,将说话人识别的等错误率降低12%~15%。最近几年,支持向量机在说话人识别中取得了突破性的进展。本文中从三方面改进支持向量机说话人识别系统。1)提出了将优化后的GMM的均值、权重都作为区分性模型的特征矢量,优于传统的只将均值作为特征矢量的系统,相对于基线系统性能有20%以上的提升。2)将模型距离和夹角作为支持向量机的输入参数并将其与GLDS参数结合。3)针对正负样本的平衡问题也提出基于模型距离和采用支持向量机去挑选合适的负例,采用切分的方法增加正例。信道一直是影响说话人识别的最大因素,由于通信线路的复杂性以及话筒的多样性,会对原始的语音产生偏移,因此会导致识别性能的急剧下降。针对信道的影响,本文提出三种方法在均值超矢量空间估计信道空间:采用EM算法、主成分分析的算法和与NAP结合的PCA分析的算法,在估计出信道空间之后再通过特征映射的方法去除信道的影响,去除信道信息的系统相对于基线系统在等错误率上最多有22%以上的下降。因子分析是解决目前信道问题的最有效算法之一,本文将相关系数的MAP与因子分析相结合,从而将因子分析的复杂度大大降低。在估计出信道空间之后,采用特征映射的方法将前端特征参数的信道信息去除,将因子分析仅仅限制在前端处理参数,保留了GMM UBM的完整框架,大大降低了计算量,而等错误率可以降低将近40%。另一方面,将因子分析与支持向量机相结合,可以取得比NAP还好的效果。