论文部分内容阅读
语音识别技术是语音信号处理技术的最重要的研究方向之一,其主要研究的对象是人类的话音信号。语音识别系统通过模拟人类的听觉过程,使得电脑可以利用某些算法实现准确理解人的话音。进入新世纪以来,个人计算机和数字信号处理等的信息科学技术有了极大的进步,特别是近5年以来,云计算和大数据技术的广泛应用,使得语音识别领域的研究进展迅速。语音识别技术的应用越来越广泛,已经深入到人们的生活中,不断改变着人们的生活习惯。在ASR系统中,提取语音的声学特征是语音信号处理的第一个也是最关键的一个步骤。本文在对语音产生原理及人的听觉机理的研究基础上,利用流形学习算法对语音信号进行参数化,提出了一种全新的语音特征参数提取方法。流形学习算法是一种最近十几年才发展起来的非线性的数据降维方法,目前流形学习研究的重点在图像处理相关的领域,特别是在图像检索、面部姿态识别、手写文字识别等领域相较传统算法有更好的表现,而在声音信号处理特别是语音识别领域的相关研究相对较少。语音识别中较成熟的特征参数MFCC、LPCC等均基于线性系统理论,而语音的发声系统为非线性时变系统,MFCC等特征很难反映出语音信号的本质特征。流形学习的目的是寻找非线性数据的本质特征,发掘蕴含于高维数据内部之几何结构。利用流形学习方法对语音信号进行研究,就是找出语音信号的内在特征,即发现语音信号中存在的低维流形,提高自动语音识别系统的识别准确率。通过提高语音识别的准确率,进而提高人工智能、语言输入、身份识别等应用的效率,具有一定的实际现实意义。本文首先介绍了流形学习相关的理论、语音的产生原理和常见的基于倒谱的语音特征参数提取方法,同时结合声管模型分析了语音信号中低维流形结构的存在性,创设了一类运用流形学习算法提取的语音信号特征参数的方法。该方法的创新性在于将流形学习技术与人类的发声原理和听觉机理联系起来,通过该方法提取的语音特征在语音音素的可分性、音素聚类以及小词汇量识别等方面与传统的特征提取方法相比具有更好的性能。该方法的提出,为人工智能、语言输入及身份识别等语音识别应用中的特征参数提取提供了新的选择,为研究人员进行相关研究提供了借鉴意义。