论文部分内容阅读
连续数字语音识别在现实中具有广泛的应用前景,在电话语音拨号、自动数据录入、身份证号码证实等多方面连续数字语音识别都有着重要的应用价值。 汉语连续数字语音识别是语音识别中的一个重要分支,同英语发音的识别情况相比还有一定的差距,主要难点在于,首先汉语是单音节字,音节越少语音间的混淆程度越高,识别越困难。其次汉语连续数字发音连续程度较高,这主要由于汉语数字发音中零声母语音出现的较多。另外汉语连续数字串中各个数字的协同发音现象较严重也给汉语连续数字语音识别带来了困难。 本文以互信息理论为基础,从语音模式间的交互信息量的角度,研究了一个完整的语音识别系统的各个组成部分,其中包括预处理、参考模式的训练、连续识别算法以及后续处理部分。预处理部分主要研究了语音信号的端点检测技术,不仅包括安静环境下的的语音信号端点检测,还考虑了在较低信噪比的情况下端点的准确检测,研究了基于倒谱参数的端点检测算法,实验表明在信噪比较低的环境下,传统检测算法性能明显下降,而基于倒谱参数的检测算法显示了良好性能。参考模式的训练方面,本文采用了改进的K均值算法MKM算法,聚类的类别数由事先指定,将训练得到的语音参数文件聚类成有限的几个类别作为参考模式,需要注意的是这里的聚类针对的是不同帧长的语音模式,文中研究了两种求聚类中心的方法,一是语音模式都映射到平均帧长上求中心,另一种是求一个最有代表性的模式作为中心。连续识别算法作为本文的重点内容,在互信息估计的现有成果的基础上,提出了两种算法MI OneStage算法和MIM LB算法,实验表明两种算法在连续数字的识别任务上是有效的,在仅采用二阶、三阶LPCC特征参数的条件下,识别性能与传统算法采用十二阶特征从于红_有;息估计的连续数字语音识别摘公参数时性能相当。后续处理模块,本文从语音的声调模型和声韵切分模型两个方面进行了初步的研究,汉语数字中存在儿个易混数字对,“6[liu41”和“9口iu3]”、“Zler4]”和“8[bal]”及“1[yil]”和“7「qil]”,它们的主要区别在于声调和声母的发音,因此基于声调和切分出的声母可以更好的提高易混数字对的正识率。本文第七章给出了实验的一些具体的结果。最后从系统识别率的提高和系统的抗噪性能两个方面,提出了说话人自适应、多层贝叶斯模型等提高识别率的思想和方法以及采用语音增强器和识别器的级联来提高系统的抗噪性能。