论文部分内容阅读
语音信号是人类生活工作中非常重要的交流手段之一。而每个人的声音都是具有自己的独特特征的,从理论上来说,声音就像人的指纹一样,很少会有两个人具有相同的声纹特征,所以通过不同人的声纹特质,我们可以区分出不同人的声音从而识别不同人的身份。说话人识别技术,就是根据语音信号中所反映的说话人生理和行为特征的特征参数,来自动识别说话人的身份,是一种生物特征识别技术。相比于指纹识别、人脸识别、瞳孔识别等方法,说话人识别技术应用在身份识别领域时具有易于被用户接受、设备所需成本较低、可扩展性好等优点。深度学习近几年来在模式识别、语音识别、图像处理等领域中都取得了令人瞩目的成绩。同传统的浅层学习相比,深度学习的不同之处在于强调了深度神经网络模型的深度,明确了特征学习在深度神经网络中的重要性,使得样本的分类或者识别更加简单、容易。将说话人识别和深度学习结合起来,可以大大增加说话人识别的准确率,从而推动说话人识别技术在身份认证领域的应用。本文的工作内容如下,录制了两个不同的的语音库。语音库1是由实验室内14名同学在安静无干扰的办公室内录制的。语音库2是由一个企业的五十名员工在工作的大房间内录制的。同时还选取了 Kaldi平台上的开源中文普通话数据库中的五十个人的语音数据作为语音库3。使用这三个语音库对后续的实验进行训练、测试。实现了以MFCC及其一二阶差分为特征参数,用VQLBG算法进行聚类的传统说话人识别算法。采用不同特征参数组合以及码本质心参数,研究了在不同参数条件下系统的性能变化情况。用三个语音库进行训练、测试,所得到的最高识别率分别为97.14%、73.12%和98.26%。设计并实现了基于DNN网络的说话人识别算法。选取语音库2,研究在不同特征参数以及隐藏层节点数的条件下,系统性能的变化情况。得到的最高识别率为80.3 1%。选取语音库3,在固定特征参数及网络层的情况下,进行多次训练、测试,研究系统性能的波动情况。得到的识别率范围在96.36%~98.07%内,平均识别率为97.36%。提出了一种基于性别的说话人识别算法,并进行具体实现。选取语音库3在固定的特征参数和网络层条件下,多次对系统进行训练测试,研究系统性能的变化情况。识别率范围在97.80%~98.56%内,平均识别率为98.07%。与基于DNN的说话人识别算法对比结果,发现基于性别的说话人识别算法提高了一部分识别率,并且识别率的波动范围明显更小。