论文部分内容阅读
在现代社会,人们获取信息越来越容易,手段越来越多,随之产生的是隐私保护更为迫切,因此对加密的要求也越来越高。如今,除了传统的指纹加密、字符加密等外,利用语音来识别身份作为加密的方式也引起了人们的兴趣,因而说话人识别也越来越受到重视。本文主要研究说话人识别中的说话人确认,即判断某段语音是否为指定的说话人所说,且核心研究是文本相关的说话人确认(要求注册和测试时的说话人和说话内容都正确才可通过),同时会有少部分文本无关实验和研究。在说话人确认技术中,作为最经典的GMM-UBM系统和目前最先进的i-vector系统,前者实现方式简单易操作但性能很难拔尖,后者在文本无关的说话人系统中表现优越但在文本相关的说话人系统中却不如GMM-UBM。2006年Hinton提出了深度信念网络无监督训练算法,使得深度学习作为一个新的领域出现在机器学习研究中。深度学习在语音识别等领域的成功应用,也引起了说话人识别领域的关注。本文将研究深度学习模型在说话人确认系统中的应用,基于GMM-UBM和i-vector两个基线框架下融入深度学习模型。 在GMM-UBM框架下,研究对象是深度特征,即由深度学习模型隐层输出的再经过一些前端处理后的特征,尤其是深度特征与频谱特征拼接形成的tandem深度特征。在文本相关条件下,本文首次全面地将深度特征包括tandem深度特征用于GMM-UBM说话人确认中,而且取得了较高地性能提升,最好的结果EER提升了50%以上。同时,文本无关条件下的实验也验证了深度特征的有效性。 在i-vector框架下,主要针对其在文本相关条件下的性能不足,提出了两种完全在深度神经网络框架下提取说话人向量的方法:经联合训练说话人网络和文本内容网络而得到的j-vector和基于神经网络基分解的s-vector。其中j-vector取得了文本相关的说话人系统性能上的进一步提升,超过了基于tandem深度特征的GMM-UBM系统。另外,针对文本无关的i-vector系统,本文在利用深度神经网络优化i-vector提取上进行了一定的尝试。 基于GMM-UBM和i-vector两个基线框架,本文利用深度特征和多任务训练的深度结构在文本相关的说话人确认中取得了很好的效果。