论文部分内容阅读
随着信息化时代的不断推进,人们对系统身份认证可靠性和服务提供个性化的需求不断提升,基于用户语音的说话人识别和说话人属性分类技术迅速成为信号处理领域的研究热点。现有的基于深度学习方法的说话人识别及说话人属性分类任务仍然受限于环境噪声及信道失配问题,本论文旨在基于深度学习研究具有较高鲁棒性的说话人识别和说话人属性分类系统,提升复杂场景下的识别和分类准确率。为了实现上述研究目标,本文对话人识别及说话人属性分类展开以下研究:针对说话人识别,本论文提出基于残差网络及双向长短时记忆网络的ResNet-BLSTM网络结构,使用语谱图作为网络输入,提取出了对于语速鲁棒且表征信息更丰富的深度特征。在训练阶段提出了基于改进三元组损失的T-Triplet Loss,严格控制特征向量的类内聚集及类间分离,使模型在噪声语料集下也能准确地聚类同说话人语音。最后分别在Voxceleb、LibriSpeech和AISHELL-1三个语料集上开展实验,并在三个数据集上都取得了较为接近的识别等错误率,验证了系统在多种语音环境下的鲁棒性,且更是在噪声数据集Voxceleb上相较于基线系统i-vector/PLDA取得了 63%的等错误率下降。针对说话人属性分类,本论文提出了包含瓶颈网络层的DBN网络结构,抽取瓶颈网络下层的所有网络结构作为深度特征提取器。深度特征提取器提取MFCC的高层特征D-MFCC作为GMM-UBM模型的输入来训练性别-年龄段分类模型。最后的分类实验在aGender数据集上展开,对比分别以MFCC和D-MFCC作为分类模型训练输入的分类准确率,D-MFCC总体取得了 32.33%的分类准确率提升,且在成年女性和老年男性的分类任务中取得了较大幅度的性能提升。本论文分别对说话人识别和说话人分类的特征提取及模型构建进行研究改进,提取出表征性良好的声学特征,并基于这些特征集训练构建出稳健的说话人识别/分类模型,使得识别/分类任务在实验语料集下表现出优越的性能。