论文部分内容阅读
语音识别技术从理论研究到产品开发,是一项公认的极具挑战性和市场价值的工作,具有很强的理论研究意义和实际应用价值。随着DSP技术的飞速发展,其系统功能、数据处理能力以及与外部设备通信功能的不断增强,语音识别的研究发展更是突飞猛进。 本文在已有的研究成果基础上,围绕连续语音识别系统结构,对传统的识别算法做了一些具体的改进,并在Matlab平台以及DSP上进行了实验,主要工作如下: (1)深入分析了音节切分的方法。由于连续语音信号的协同发音现象,传统的双门限检测方法很难界定相邻的两个音节。本文在传统双门限方法的基础上做了一些改进。首先,通过多次循环双门限检测初步判定得到音节的假定起止点,然后对起止点设定不同门限,分别对假定起止点进行前后向搜索,最终确定音节的起点和终点。 (2)重点研究了HMM与VQ相结合的声学模型的训练与识别方法。其中VQ的训练引进了模糊-C均值(FCM)聚类的算法,克服了传统LBG算法存在的空包腔和非典型码字等问题。鉴于FCM聚类算法运算量较大,本文从数据约减和减少迭代次数两方面对FCM算法进行了改进。 (3)探讨了语言模型Bi-gram模型的训练、识别以及在连续语音识别中的应用。语音识别中引进语言模型以弥补声学模型的缺点,提供语言方面的语法语义约束,提高系统的识别率。 (4)从识别系统软硬件结构出发,详细介绍了TI公司的TMS320C6713DSK以及相关的模块,并重点研究了识别系统在DSP上软件流程及调试过程。 文章给出了识别系统在Matlab以及DSP上的实验结果,通过实验数据的比较分析指出了系统的不足之处及改进。最后对全文工作进行总结,并给出了下一步研究工作的思路。