论文部分内容阅读
语种识别(Language Recognition,LR)作为语音信号处理领域中的一个重要研究分支,具体是指利用计算机对任意给定时长的语音片段进行一定的分析和处理,从而自动判别出未知语音片段所属语言类别的过程。近二十年来语种识别才真正意义上成为研究的热点,理论算法研究的逐渐成熟也逐步平稳地推进着语种识别技术向实际应用方面的转变。基于全差异空间(Total Variability,TV)建模获取语音段i-vector表示的方法因其理论发展的成熟和性能的突出已被研究者们普遍应用在自己的语种识别系统中。本论文旨在获得能够有效描述语种信息的i-vector后,尝试解决后续语种识别方法存在的实际问题,从而找到适用于不同语种、不同测试样本的性能更加优异的语种识别方法,主要工作及成果如下:1.研究了基于DBN-UBM-DBF系统TV建模。首先在介绍了经典TV建模的基础上,对 DBN-UBM-DBF(Deep Bottleneck Network-Universal Background Model-Deep Bottleneck Features)系统中利用同一深度瓶颈网络(Deep Bottleneck Network,DBN)的不同层的输出信息提取语音段i-vector的完整过程进行了详细论述,然后对提取到的i-vector的特征域噪声补偿方法进行了阐述和分析,最后在实验中给出基线系统的默认配置并对基线系统的性能进行测试实验,为后续的研究提供统一的性能比较基准。2.系统地分析比较了目前在i-vector空间下的多种主流后端语种识别方法。首先对现有算法做了归纳和分类,详细介绍了每种方法在语种识别任务中的应用,然后在开发集上实验分析确定所需要配置的参数和相关实现细节,并利用不同性能指标下进行在测试集上的性能测试,最后分析比较各种方法在不同测试时长条件下的性能表现差异,并进一步总结方法之间的优劣性,为后续的改进工作提供了清晰的思路。3.提出了基于语种类内方差先验的加权余弦距离得分计算(Cosine Distance Score,CDS)改进算法。首先针对基线方法CDS性能提升存在瓶颈的实际问题,提出引入语种数据i-vector语种类内方差这种先验知识,然后为了减少由于i-vector不同特征维度对识别性能重要性存在显著差异带来的识别错误,进一步对语种类内方差进行加权处理,最后通过实验对改进算法进行性能测试并与基线方法作对比。4.提出了基于局部距离离群因子(LDOF,local distance-based outlier factor)准则的自适应高斯后端语种识别方法。首先针对由语种类内多样性引起的测试样本和已训练好的模型不匹配的问题,提出一种与测试样本相关的AGB语种识别方法,然后为了测试样本能够从多类语种训练样本子集上可靠地挑选出与之特性相近的训练样本,进一步定义了 LDOF准则,最后实验验证提出的解决算法的有效性。