论文部分内容阅读
关键词检出技术就是从连续的语音流中检测并识别出表征预定义关键词表中单词的语音段的一种技术。本文讨论的关键词检出技术基于概率统计方法的语音识别技术。一个完整的关键词检出系统应该包含三大模块,分别是声学模型、识别模块和后处理模块。其中声学模型的训练虽然不在
关键词检出系统的研究范围内,但是却是必不可少的部分;识别模块主要研究的是语音段的发现和对齐的问题,若采用连续语音识别的方法,还应该考虑剪枝的策略;后处理模块主要是通过设计一种置信度方法,对识别阶段的输出结果给出置信分数,也是给出衡量一个关键词检出系统性能参数的模块。
本文研究的重点是可定制的中文关键词检出系统,研究分为以下几个方面:
基于上下文相关的扩展声韵母(eXtended Initial/Final)的中文语音基元的建模和利用决策树对模型规模的限制。通过上下文相关的扩展声韵母,有效的解决了可定制词表的关键词识别系统的实现问题;利用中文语音的先验知识,采用决策树方法对模型的状态和参数进行了共享,有效的限制了大词表关键词检出系统中的模型数量膨胀的问题。
提出了N-Best的多条路径决策的不匹配帧加权的置信度方法,并作为关键词检出的后处理部分的实现。普通的基于驻留归一化的方法无法利用N-Best路径的决策信息,而部分采用N-Best的置信度方法又无法详细刻划连续语音中关键词附近的识别效果,采用综合N-Best多条路径的信息并利用不匹配帧描述关键词附近的信息以进行路径得分的加权的置信度的方法很好的解决了这个问题。