基于互信息估计的连续数字语音识别

来源 :苏州大学 | 被引量 : 0次 | 上传用户:my363
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
连续数字语音识别在现实中具有广泛的应用前景,在电话语音拨号、自动数据录入、身份证号码证实等多方面连续数字语音识别都有着重要的应用价值。 汉语连续数字语音识别是语音识别中的一个重要分支,同英语发音的识别情况相比还有一定的差距,主要难点在于,首先汉语是单音节字,音节越少语音间的混淆程度越高,识别越困难。其次汉语连续数字发音连续程度较高,这主要由于汉语数字发音中零声母语音出现的较多。另外汉语连续数字串中各个数字的协同发音现象较严重也给汉语连续数字语音识别带来了困难。 本文以互信息理论为基础,从语音模式间的交互信息量的角度,研究了一个完整的语音识别系统的各个组成部分,其中包括预处理、参考模式的训练、连续识别算法以及后续处理部分。预处理部分主要研究了语音信号的端点检测技术,不仅包括安静环境下的的语音信号端点检测,还考虑了在较低信噪比的情况下端点的准确检测,研究了基于倒谱参数的端点检测算法,实验表明在信噪比较低的环境下,传统检测算法性能明显下降,而基于倒谱参数的检测算法显示了良好性能。参考模式的训练方面,本文采用了改进的K均值算法MKM算法,聚类的类别数由事先指定,将训练得到的语音参数文件聚类成有限的几个类别作为参考模式,需要注意的是这里的聚类针对的是不同帧长的语音模式,文中研究了两种求聚类中心的方法,一是语音模式都映射到平均帧长上求中心,另一种是求一个最有代表性的模式作为中心。连续识别算法作为本文的重点内容,在互信息估计的现有成果的基础上,提出了两种算法MI OneStage算法和MIM LB算法,实验表明两种算法在连续数字的识别任务上是有效的,在仅采用二阶、三阶LPCC特征参数的条件下,识别性能与传统算法采用十二阶特征从于红_有;息估计的连续数字语音识别摘公参数时性能相当。后续处理模块,本文从语音的声调模型和声韵切分模型两个方面进行了初步的研究,汉语数字中存在儿个易混数字对,“6[liu41”和“9口iu3]”、“Zler4]”和“8[bal]”及“1[yil]”和“7「qil]”,它们的主要区别在于声调和声母的发音,因此基于声调和切分出的声母可以更好的提高易混数字对的正识率。本文第七章给出了实验的一些具体的结果。最后从系统识别率的提高和系统的抗噪性能两个方面,提出了说话人自适应、多层贝叶斯模型等提高识别率的思想和方法以及采用语音增强器和识别器的级联来提高系统的抗噪性能。
其他文献
PDA线务通是一种融合了PDA技术、短信技术、电信业务技术和嵌入式技术于一体的一种新型的固话短信终端系统。它允许电信维修人员通过将这种通信设备与固定电话线(PSTN)的连接
该文首先介绍了蓝牙无线通信的基本知识,包括2.4GHz频段及扩频射频通信技术;同时还介绍了蓝牙通信技术的基本原理,包括主从角色、基带模式和通信的拓扑结构;以及蓝牙协议栈的
分布式系统比单机系统具有更高的性能和可靠性,并且随着互联网的普及和某些应用本身所具有的分布式特性,使其应用日益广泛。但是,对于网络分布式系统来说,当系统的任务量过重时,单
数字水印是近年来出现的数字产品版权保护技术,它可以标识作者等版权保护信息和认证信息。作为密码学的加密或置乱技术的补充,使用水印技术可以鉴别出非法复制和盗用的数字产品
本学位论文针对无线信道复用传输理论与技术展开研究,包括复用传输信号一般形式及系统模型、系统总体资源效率、多输入多输出(MIMO,Multiple InputMultiple Output)信号检测方法