论文部分内容阅读
一直以来语音识别主要以线性理论为基础,其中动态时间规整技术和隐马尔可夫应用最为广泛。然而,人的发音实际上是一个复杂的非线性过程,基于线性理论的识别技术的局限性逐渐显现出来了。语音识别技术若是要取得突破,就必须引入非线性理论的识别技术。随着对生物脑的深入了解,人工神经网络这一非线性理论获得了长足发展,其被广泛应用在语音识别的各个领域,例如车载导航仪、机械的语音控制、语音拨号、语音文档搜索等。但是,神经网络依然存在着不足之处,一是噪声的影响;二是训练速度慢,易陷入局部极小;三是,网络结构的选择没有明确的指导方案。本文就是在此背景下,重点研究了在孤立词的语音识别系统下,如何构建网络和设置参数,以减少机器识别的错误率,提高系统的识别率,实现了一个特定人孤立词的语音识别系统,为以后对噪声下语音识别的研究奠定了基础。本文的研究内容和研究成果为:首先,从语音识别的模型上分析了语音识别的基本原理。研究了预处理中的信号采集、采样、滤波、加窗、分帧、端点检测的方法和原理,并且探讨了语音参数提取的方法,重点分析了LPCC和MFCC系数的提取流程,给出了BP神经网络的学习过程。其次,在matlab7.0软件上实现了语音识别系统的仿真,分别通过选取不同的阶数的MFCC系数和LPCC系数对参数进行提取,用代表点序列时间规整算法对特征参数进行压缩和合并,以满足后端BP神经网络对输入数据维数相同的要求,得出了在孤立词的识别中MFCC系数要优于LPCC系数的结论。最后,采用了不同的网络结构对系统进行训练和测试,得到了不同隐含层神经元个数对网络识别率的影响,并且分别采用2种不同的输出方案进行实验,得到了不同方案下的识别率,得出了在孤立词的识别中采用2进制编码更有利于其在硬件上的实现的结论,并且要通过大量的实验才可得到最佳性能的网络。