论文部分内容阅读
随着计算机不断向便携化发展及其环境的日趋复杂化,人类迫切希望摆脱键盘的束缚而代之以一种更便捷、自然、有效的输入方式与计算机进行交流。语音识别技术正是在这样的环境中发展起来的。语音识别技术是使计算机根据语音执行相应的命令,为人类服务。目前,语音识别技术已经得到广泛应用。它在家电产品、智能玩具、商业系统的数据库语音查询、工业生产部门的语声控制、电话与电信系统的自动拨号等领域发挥重要的作用,并且极有可能成为下一代操作系统界面。语音识别技术虽然取得了长足的进步,但仍有许多问题有待研究解决,噪声环境下的特定人识别即是其中之一。在实验室环境下的特定人识别系统已经具有较高的识别率,但人们在语音通信过程中不可避免地会受到来自周围各种噪声的干扰,这些干扰导致系统识别率显著降低。基于谱减法计算简单,容易实现的优点,为了提高特定人语音识别系统在噪声环境下的识别率,本文采用谱减法进行语音去噪,同时为了有效抑制谱减法去噪时产生的“音乐噪声”问题,本文在典型谱减法的基础上作了一定的改进。实验结果表明,改进型谱减法能有效的抑制噪声的干扰,且没有产生过多“音乐噪声”,并使系统的识别率得到大幅度提高。特征参数是语音识别系统的基础。特征参数应能完全、准确地表达语音信号所携带的全部信息。对于语音识别系统来说,如何选取能够唯一表征语音的有效且可靠的特征参数,是系统的关键问题之一,直接关系到系统的优劣性和系统的识别率。本文运用脉冲耦合神经网络从语音信号的频谱图中提取熵序列作为系统的特征参数,并将其与常用的线性预测倒谱系数和美尔倒谱系数作对比。实验结果表明,熵序列大大降低了系统数据量,使系统具有较好的实时性和识别率。本文首先介绍研究背景及语音识别的国内外研究现状,简要介绍了语音识别的理论基础及语音学的基础知识。接着对语音识别系统中预处理、特征参数提取、识别模型进行详细介绍。针对在噪声环境下识别率偏低的问题,采用了改进型的谱减法进行语音去噪。文中还介绍了运用脉冲耦合神经网络提取熵序列作为特征参数的方法。最后,根据采用的方法实现了特定人语音识别系统。