论文部分内容阅读
深度学习是人工智能领域最前沿的研究问题之一,在计算机视觉、语音处理、机器人控制、生物信息学等领域取得了惊人的进展。深度学习模拟人脑进行分析学习,通过抽象、组合简单的概念形成复杂的概念。相较于传统的机器学习算法,深度学习无需手工设计特征。本文基于深度学习研究语音处理中的两种典型应用问题,即语音匹配和结合听觉视觉的语音识别。从应用上讲,语音匹配与语音识别是语音处理的关键技术,广泛应用于语音检索与情报分析,研究深度学习在这两类问题上的应用具有重大的商业与军事应用价值。从理论上讲,语音匹配和语音识别分别是语音处理中的无监督问题和监督问题,研究这两类问题上的深度学习模型具有重要的学术价值。本文创新点如下:一、针对传统语音匹配算法泛化能力差的缺点,本文提出使用卷积深度置信网络(Convolutional Deep Belief Network,CDBN)进行语音特征的提取。CDBN结合了卷积神经网络有效处理高维数据以及深度置信网络无监督学习的优点,可以无监督地从高维语音数据中提取泛化能力强的特征。基于CDBN提取的二值特征,本文提出一种更加快速的语音特征匹配算法。实验结果表明,相对于基于色度能量归一化统计(Chroma Energy Normalized Statistics,CENS)特征的传统语音匹配算法,基于CDBN的语音匹配算法大大提高了语音匹配的命中率。二、针对音频信息与视频信息的时序性特性,本文提出一种多模态递归神经网络(Recurrent Neural Network,RNN)框架用于结合音频和视频的语音识别。该框架包含一个听觉部分用于处理音频数据,一个视觉部分用于处理视频数据,以及一个融合部分用于结合听觉部分和视觉部分。实验结果表明,基于多模态RNN的语音识别系统,成功融合音频和视频两种特征,有效提高仅基于音频数据的语音识别准确率,尤其是对于信噪比较低的数据,语音识别准确率得到较大提升。