论文部分内容阅读
语音关键词识别是从连续的无限制的自然语音流中识别出一组给定的词即关键词的过程,具有广泛的应用前景。关键词识别系统包括关键词检出和置信度确认两大部分,在关键词检出阶段尽可能多的给出关键词候选,提高系统的检出率,然后对候选的关键词进行置信度评估,降低系统的虚警率。置信度的区分能力在关键词识别系统中起着至关重要的作用。本文针对系统在关键词初选阶段虚警率高的特点,研究有效的置信度计算方法,以提高置信度确认的效果,提升关键词识别系统的性能。主要成果如下:(1)提出了一种基于MLP帧级子词后验概率的置信度方法。与主流的HMM模型框架下利用声学模型得分与语言模型得分进行置信度计算不同的是,该方法在MLP模型框架下直接将其输出的每帧语音类别的后验概率用于关键词置信度的计算,克服了HMM建模时假设每帧语音的声学特征相互独立以及对状态建模时采用有限混元高斯分布的不足。关键词检出和置信度确认使用两套不同的模型结构,是两个完全独立的过程,便于融合其它的置信度特征。实验结果表明,新的方法优于HMM框架下主流的置信度计算方法,且与其具有较好的互补性,将两种不同框架下的置信度方法进行简单的线性融合之后,系统的性能得到进一步的提升。(2)提出了一种基于时长和边界信息的置信度算法。主流的基于Lattice后验概率的置信度方法对语音发音变化信息利用不充分,在对时间上相交、词信息相同的弧段进行整合时,没有充分考虑到候选弧段的时长和边界信息,易将前端误识结果引入到置信度计算或忽略处于边界位置的一些弧段,漏掉一些对置信度产生贡献的信息,影响置信度确认的效果。针对这些问题,本文算法通过引入一个松弛因子,用来灵活选择词信息相同且持续时间和起止边界满足条件的弧段进行置信度的计算,综合考虑了候选弧段的时长和边界信息。实验结果表明,新的算法优于主流的Lattice后验概率的置信度方法,具有较好的置信度效果。(3)提出了一种基于得分修正策略的SVM区分性置信度方法。通过置信度得分对候选关键词进行正误判别可以看成是一个标准的二元分类问题,而SVM是一种很好的区分性分类器设计方法,具有较高的分类准确率。实验结果表明,将现有的候选关键词的置信度得分通过SVM转换成区分性置信度,可以进一步提升置信度的区分能力。在进行SVM训练时,针对训练数据中正反样本不平衡的问题,提出了一种得分修正策略,首先通过样本数据近似估计出正误类别的先验概率,然后采用提出的方法对SVM输出的类别后验概率进行修正,将修正后的结果作为候选关键词的置信度。实验结果表明,本文提出的修正策略是有效的。