论文部分内容阅读
语音是人类相互通信和交流的最方便快捷的手段,让机器能够听懂人类语言或按照人类意志进行相关操作是人们长期以来梦寐以求的目标。关键词检测是自动语音识别的一个特殊分支,其主要任务是从连续的语音中检测出具体应用所需要的少量特定词汇。相对于连续语音识别,关键词检测技术具有资源耗费少、识别率高和实用性强的优点,因此有着广泛的应用前景。隐马尔可夫模型(HMM)是各类语义识别系统的主流模型,它是完成准平稳时变信号分析和识别的有利工具,能够很好地描述语音特征的动态变化和统计分布。本文在系统分析关键词检测系统基本框架、HMM原理、语音特征参数提取及分形维算法的基础上,针对现有关键词检测系统在训练样本、填料模板、检测效率、检测时间方面存在的问题,重点研究设计了基于HMM的汉语语音关键词检测系统,并在填料模板创建、状态搜索算法和检测确认策略等方面做了诸多改进。论文主要研究内容如下:(1)研究了HMM模型的建模过程,详细分析了前向—后向算法、Viterbi最佳路径搜索算法、基于Baum-Welch的多观察序列输出高斯混合模型的参数重估算法,以及与之相应的概率输出、最佳状态解码和模型参数估计等问题,为在语音识别中应用HMM打下了基础。(2)提出了基于动态帧长的语音信号分析方法;在语音信号特征提取时,先估计当前语音单位的持续时间,再根据持续时间动态确定窗长,进行分帧,该方案缓解了因为训练样本质量和数量问题引起的关键词检测系统的性能恶化,提高了匹配模板的稳定性,并应用到检测过程中,实现了语速自适应。(3)论证了语音分形维原理,并根据分形维实现了音节实时分割;在此基础上实现了关键词训练系统的样本自动标注和检测系统的两步式状态解码算法。(4)对填料模型的结构和类型进行了研究,吸取韵母聚类模型和音节格模型的优点,提出了基于音节聚类的填料模型,节省了系统的检测时间,提高系统的检测率。(5)构建了关键词首音节模型和关键词确认模型,先用填料模型和关键词首音节模型与输入语音片断进行匹配,如果最佳匹配结果落入某类关键词首音节域,则把当前的两个候选关键词音节与关键词确认模型进行匹配,并计算帧平均似然得分,对关键词进行确认。(6)建立了一个小词量的样本库和测试样本库,设计实现了一个基于HMM的无语法限制的关键词检测系统,通过仿真实验分析了不同特征参数、帧长方案和填料模板等对系统性能的影响。