论文部分内容阅读
在低资源场景中,由于标注语料有限,深度学习无法获得一个稳健的声学特征表示模型。近年来,词对学习(Pairwise Learnining)利用成对样例作为弱监督信息进行特征表示,成为低资源场景中的热点研究方向。本文以低资源语音场景为背景,研究基于词对学习的声学特征表示方法,考察这些方法在ABX音素区分、孤立词区分、实例查询语音搜索和关键词检索任务上的应用效果。主要贡献总结如下:1.提出一种基于瓶颈特征的词对学习声学特征表示方法。由于目标语言中的语料有限,传统基于频谱特征的词对学习声学特征表示方法在低资源场景语音任务中判别性不强。本文利用非目标语言中的丰富语料去训练跨语言和多语言瓶颈特征提取器,然后在目标语言中提取瓶颈特征作为输入特征去学习更有效的词对学习声学特征。孤立词区分和实例查询语音搜索实验表明瓶颈特征比频谱特征的音素区分能力更强,而且经过词对学习之后的声学特征能进一步提高音素或者词语区分能力。2.提出一种基于词对学习的无监督声学特征表示方法。基于词对学习的声学特征表示对词对信息和输入特征的依赖较大。本文利用由狄利克雷过程高斯混合模型得到的类音素标签去训练一个带有瓶颈层的深度神经网络并且提取无监督多语言瓶颈特征;然后选用无监督子词发现算法去寻找类词语音对,将词对学习方法运用在这些类词语音对上去获取更有效的无监督帧级声学特征。Zero Speech2017国际评测实验表明该无监督帧级声学特征在ABX音素区分测试中平均错误率可以大幅减少到基线系统的65%。3.提出一种基于上下文填充的词对学习声学词嵌入方法。在实例查询语音搜索中,声学词嵌入的学习中使用的通常都是切分好的孤立口语词,而却被应用在没有词边界的搜索语音库中,存在明显的不匹配问题。本文将口语词的前后帧序列当做上下文信息,用上下文填充的方法去学习基于卷积神经网络和循环神经网络的声学词嵌入,并且在语音搜索库中通过滑动窗的方法查找匹配的口语查询。与帧级自编码特征相比,基于上下文填充的循环神经声学词嵌入在搜索速度上相对提升了9.35倍,并且在平均准确率上相对提升了16.5%。4.提出一种基于深度二元嵌入的快速实例语音搜索方法。声学词嵌入通常为实值元素并且维度很高导致计算量过大。本文通过深度哈希网络去学习深度二元嵌入,然后采用汉明距离去加快实例查询语音搜索的速度。与此同时,在深度哈希网络中引入注意力机制并且使用惩罚项、量化损失和三体损失这三个特定的目标函数去指导训练。与循环神经声学词嵌入相比,深度二元嵌入在搜索速度上相对提升了8倍,并且在平均准确率上相对提升了18.9%。5.本文提出一种基于声学词嵌入的语音关键词二次验证方法。由于真实场景存在着说话人口音和各种背景噪声干扰,深度关键词检索系统的性能明显下降。本文提出一种基于声学词嵌入的模板匹配对深度关键词检索系统得到的语音关键词候选进行二次验证的方法。在声学词嵌入的学习过程中,采用三体损失、反向三体损失和铰链损失这三个特定的目标函数来指导网络的训练。实验表明基于声学词嵌入的语音关键词二次验证方法比深度关键词检索系统方法的准确率相对提升了13.6%。