论文部分内容阅读
关键词识别是语音识别的一个重要研究领域,关键词识别不仅比连续语音识别灵活性好,而且具有很高的应用价值。本文对几种关键词检测技术进行了研究,这些技术适用于不同的应用场合,其中基于垃圾模型的关键词检测技术主要应用在实时的命令词检测和对话系统,基于音节格和混淆网络的关键词检测技术可应用于大词表音频文档内容检索。本文的研究重点为关键词识别系统的检出策略和确认方法,主要的工作及创新包括以下几个方面:1.基于垃圾模型的关键词系统中的语音确认算法在基于垃圾模型的关键词系统中,常利用似然比方法进行语音确认。提出了一种基于竞争模型的加权似然比融合语音确认方法,通过联合目标模型与其竞争模型的似然比对子词的置信度进行估计,引入了最小确认错误准则训练融合的权重系数。实验表明该方法优于传统的似然比方法。通过分析关键词检测系统的置信特征,选择动态垃圾得分、似然比和驻留概率等特征计算关键词候选的置信度,实验表明这些特征的组合能够明显提高系统的拒识性能。2.音节格关键词识别系统中关键词检出算法和验证方法由于缺乏高层语言指导,基于音节格的关键词检测系统的检测率通常比较低。提出了一种改进的基于最小编辑距离(MED)的关键词搜索算法,在依赖于系统的替代错误发生时考虑了上下文高阶音节混淆。在关键词验证阶段,给出了一个新的置信度函数来压制由MED搜索带来的虚警。实验结果表明,提出的搜索策略和验证方法明显优于传统的字符串匹配方法,具有较高的检测率和置信能力。3.基于音节混淆网络的语音文档内容检索技术设计了一个基于音节混淆网络的语音文档内容检索系统,对检索系统的索引机制进行了研究,实验结果表明该系统整体性能明显优于基于音节网格的关键词系统。提出了改进的基于两阶段解码的查询自动扩展策略,首先通过Viterbi解码获得混淆音节网格,然后利用A~*解码算法从音节格上产生易混淆的扩展项。通过扩展项的置信度控制查询扩展的数目,实验结果显示该方法能够有效提高查询的检出率。4.语音识别结果的错误纠正方法的研究介绍了一种基于分而治之思想的语音错误纠正方案并用于音节识别任务。利用混淆网络把连续语音识别问题转换为顺序的、独立的分类子任务,每个分类任务可以看做是孤立词识别问题,通过训练专门的支持向量机来区分混淆网络的识别候选。提出了一种基于码本映射的特征变换方法,把可变长度的语音段转换为适合支持向量机处理的固定维数特征。联合基于混淆网络的和支持向量机的后验概率估计进行错误纠正,实验结果表明该方法能够有效提高系统的准确率。