论文部分内容阅读
说话人识别作为语音信号处理中的组成部分,有着广泛的应用前景,是人机交互领域重要的关键技术之一。然而在实际应用中,能够提取到的说话人语音较短,识别性能不稳定。为了提升人机交互的友好性,本文针对短语音说话人识别系统进行了一定的研究。首先,本文设计了说话人识别系统的整体结构,并对系统中各处理过程进行了分析,明确本文研究的研究重点为特征提取和声学模型识别。其次,针对短语音条件下,语音的偏向分布使提取的I-Vector具有不可靠的问题,本文提出一种基于生成对抗网络(Generative Adversarial Network,GAN)的I-Vector补偿方法,该方法训练生成器网络将短语音I-Vector生成一种补偿I-Vector,同时训练判别器网络判别输入的I-Vector是由生成器补偿生成,还是来自长语音I-Vector。最后,通过完成生成器网络和判别器网路的对抗训练,将从短语音中提取的I-Vector尽量补偿到它们对应的长语音I-Vector,补偿的I-Vector可以恢复丢失的信息,为后续说话人识别环节提供更优的语音特征信息。然后,考虑到短语音训练样本可能不足的情况,本文重点研究了声学模型和深度学习模型,提出一种新的基于I-Vector和深度神经网络(Deep Neural Networks,DNN)的混合模型双重判别方法。该方法通过概率线性鉴别分析方法(Probabilistic Linear Discriminant Analysis,PLDA)降低语音中的信道干扰,提高基于I-Vector的说话人识别模型在短语音下的鲁棒性。同时,采用DNN训练语音特征以提取短语音中的深层特征,实现对少量语音的有效训练和识别。最后,基于该混合模型提出的一种双重判别机制,能够有效克服训练样本少和易受干扰的缺点,从而提高短语音说话人识别系统的识别性能。最后,本文完成说话人识别系统在服务机器人上的集成实现,实验结果表明:在不同长度短语音环境下,结合本文改进方法的说话人识别系统,识别性能比原说话人识别系统有所提高,说明该说话人识别系统在实际应用环境中具有一定的应用价值。