论文部分内容阅读
随着全球一体化的不断发展,国家和区域之间的经济贸易交流越来越多,同时个体的活动范围也正不断的从本地走向世界,然而语言的交流却成为阻碍发展的一大障碍。计算机技术和信息技术的不断发展使得计算机作为辅助人类交流的中间工具正迅速的发展起来,如何利用新的技术使得交流从复杂到简单,从抽象到通俗成为人们所关心的问题。语音识别(Speech Recognition)是模式识别技术的一个重要分支,它以语音信号为研究对象,以实现人机交互的目的,主要研究包括计算机技术、信号处理、模式识别语言学等多个领域的一门交叉学科。在最近的几十年内语音识别成为人和机器,人和人之间流畅沟通的重要桥梁。虽然语音识别技术在各行各业的使用范围已经非常广泛,识别的质量和识别效率也有很大的提高,但由于语音的人为因素、环境因素和语音识别算法等众多因素的制约,完全100%的识别目前仍是不可能达到的。本文从影响语音识别的内外部因素出发,研究语音识别技术的关键技术和问题并探讨如何提高语音识别的识别率。第一部分从影响语音识别的人为因素出发对影响识别准确率的样本采集方面进行分析:语音识别的对象是不同的个体所发出来的信号源,因而个体的多样性和特殊性就决定了同样的一句话就会有不同的信号输入。本文从个体的地域特征、个人的性别和生理特征以及个体的说话方式情感表达等的不同角度来分析人为因素对语音识别的影响。第二部分从外界环境对语音信号采集的影响进行深入探讨:语音信号从发音者发出来之后被语音识别设备所采集,在此过程中也存在着不定的外界因素,如信号采集过程的设备噪音、采集环境下的偶发噪音等外界因素对信号的采集有很大的影响,这些影响会直接导致语音信号训练和识别结果的不正确。第三部分从语音识别过程的算法和识别模型方法的角度探讨目前流行的各种算法和技术方法。在语音识别过程中有很多种算法,在信号处理的前期阶段关键方法和算法主要有:语音信号的预加重、语音信号的加窗处理、短时平均能量、短时平均幅度函数、短时过零率、短时自相关的分析、短时能量和零差分端点检测算法等。在语音识别中,特征参数的提取是识别准确率高低的一个重要部分,特征参数的好坏取决于能否完全表达信号所有信息的指标。目前流行的特征参数方法有线性预测系数(LPC)、线性预测倒谱系数(LPCC)和Mel频率倒谱系数(MFCC)等。识别模型方法是语音识别技术的另一个重要环节:其主要有动态时间规整(DTW)、隐马尔科夫模型(HMM)、矢量量化(VQ)等。本文通过设计语音识别系统对大噪音环境的语音信号的使用滤波的噪音处理方法,并以MFCC作为特征参数,使用VQ和HMM两种识别模型来分别观察实验结果分析语音识别效果。