论文部分内容阅读
传统的语音识别技术以模板匹配法为主要方法,现代语音识别技术以神经网络为主要发展趋势。人工神经网络模拟了人类神经元活动原理,具有自学习、联想、对比、推理和概括能力,它为解决语音识别这样的一个复杂的模式分类问题提供了新的途径。深度学习是近年来新兴的一门机器学习子领域,该领域主要是探讨包含多层结点的人工神经网络的建模和学习问题。这种深度神经网络在面对复杂的智能问题时可以更好地进行处理,网络模型的信息处理方式在模仿人脑方面更进一步,模型可以好的用于进行语音识别。本文首先介绍了从语音采集,预处理,端点检测,到特征参数提取和时间规整网络各阶段的理论和算法。在语音的特征参数提取阶段,本文实际应用中美尔频率倒谱系数(MFCC)和美尔频率倒谱系数(MFCC)一阶差分,作为后续神经网络语音识别系统的输入数据。接着研究了基于反向传播算法(BP)神经网络的语音识别,采用基于MFCC与MFCC一阶差分混合参数的语音识别方法,可以更好地表现语音的特征,并对识别系统中的BP神经网络进行了优化,缩短了训练时间,提高了识别性能。深度学习算法中的限制玻尔兹曼机(Restricted BoltzmannMachine,RBM)模型相对比较容易学习,这种模型的算法克服了直接对多层网络进行训练的效率问题。因此,本文最后采用RBM堆叠构建深度信念网络模型(Deep BeliefNets,DBN)并用于非特定人语音识别。采用深度神经网络后,可以充分描述特征之间的相关性,可以把连续多帧的语音特征并在一起,由于采用模拟人脑的多层结构,可以逐级地进行信息特征抽取,最终形成适合模式分类的较理想的高维特征,从而提高识别效果。在DBN中,我们把时间规整后的MFCC与MFCC一阶差分混合参数作为输入数据,实验过程依据RBM设置规则对网络模型进行优化,增强模型的学习效果,并与传统BP模型作对比后发现可以达到一个较好的识别效果。