论文部分内容阅读
语音识别技术是将语音转换为文字的过程,它涉及声学、信号处理和模式识别等多个交叉学科。在语音识别研究中,提取可表示信号的深层特征、建立强大的声学模型和使用准确有效的解码算法对提高识别率都至关重要。传统的语音识别系统由高斯混合模型与隐马尔科夫模型构成,随着深度学习技术的成熟,以及计算设备性能的提升,语音识别技术逐渐发展为基于神经网络与隐马尔科夫模型的混合系统。端到端语音识别技术仅通过使用神经网络实现声学模型、语音模型和解码模块的统一训练,简化了传统语音识别系统的组成模块。本文为降低语音识别错误率,首先,从信号特征的优化处理角度出发,通过研究传统的优化方法以及特征串联融合方法,提出了基于子网络模型的深度特征融合方法;最后结合卷积神经网络与循环神经网络,并基于连接时序分类算法在TIMIT数据库上进行音素识别研究。本文的具体研究内容如下:(1)基于深度神经网络训练瓶颈特征提取网络并提取语音瓶颈特征;使用线性判别分析增强瓶颈特征中的音素类别信息,经过特征空间最大似然线性变换,使模型能够白适应说话人信息,提高对说话人噪声的鲁棒性,以及研究了不同网络结构得到的瓶颈特征对系统性能的影响。(2)为增强输入信息的多样性,研究了特征融合方法在音素识别任务上的应用。首先研究了模式识别中广泛使用的特征级串联融合方法;同时利用神经网络提取信号特征和整合信息的能力,提出了基于子网络的深度特征融合方法:使用子网络提取基于传统特征的深度特征,再通过融合网络建立各深度特征之间的联系,并进行融合学习。(3)结合卷积神经网络与循环神经网络并基于连接时序分类算法在TIMIT数据集上进行音素识别研究。将卷积神经网络和循环神经网络构成的混合网络作为模型的特征学习结构:通过卷积神经网络提取信号的局部稳定特征,并将卷积神经网络的输出作为循环神经网络的输入,再使用循环神经网络对信号的时间相关性信息建模;通过调整网络结构,使模型能够对数据集进行正常拟合。