论文部分内容阅读
随着现代传播媒质和互联网的高速发展,海量的语音数据成为信息的重要载体,如何有效地利用这些数据成为必然。语音关键词检索运用语音识别,信息检索和自然语言处理等学科的知识,通过检测语音数据中是否包含给定的关键词,解决从纷繁复杂的语音数据中获取有用知识的问题。本文针对语音关键词检索中语音识别后处理、索引结构、关键词匹配方法和置信度评价等若干关键问题进行了研究,主要工作与创新包括以下几个方面:1.加权音节混淆矩阵生成算法混淆矩阵在查询扩展和距离度量等方面具有重要应用。传统的混淆矩阵通过将统计语音识别的最优结果与标注文本进行对齐而获得,不严格的对齐方式和环境敏感的语音识别结果等因素降低了混淆矩阵的准确度。本文提出从混淆网络中生成加权音节混淆矩阵的方法,通过选择含有正确结果的混淆集作为统计对象,并根据时间重叠性和归一化的声学得分将音节间的混淆度概率化。实验表明,该算法在语音识别率较低和训练语料较少时依然可以获得较好的准确率。2.基于词激活力(Word Activation Force, WAF)模型的置信度特征提取算法在语音识别后处理和关键词结果排序中,置信度评价不可或缺。目前,大部分置信度特征来源于解码信息,如何提取反映高层语义信息的置信度特征变得非常重要。本文提出一种基于词激活力模型的置信度特征提取算法,通过统计目标词与其上下文的激活力信息,判断在语义空间目标词与其相邻词的匹配度。实验表明,基于词激活力模型的置信度特征与来源于解码的置信度特征有很好的信息互补作用,它们的组合有效提高了系统的检索性能。3.基于声学距离的关键词匹配算法在语音关键词检索系统中,由于语音识别结果中存在错误和查询指令为集外词两种情况不可避免,所以不便采用直接匹配的方法进行关键词的检索。为降低上述问题对检索系统的不利影响,常用编辑距离实现模糊匹配。但编辑距离的插入,删除,替代权重都为固定值,不具有准确性和灵活性。本文提出利用声学距离的方法来解决模糊匹配问题。在计算声学距离时,插入,删除和替代的权重值来源于加权音节混淆矩阵,即任意两个不同音节间的权重系数是各异的。实验表明,声学距离比编辑距离更准确度量了音节串间的相似性,提高了系统的检索性能。4.基于分层索引的快速检索算法声学距离匹配算法通过对语音识别器的替代、插入和删除错误的容错处理,提升了系统检索的准确率,同时也增加了检索时间。在检索过程中,目标音节序列与索引库中每个音节序列间的声学距离计算最为耗时。本文研究了一种基于分层索引的快速检索技术,通过将声学距离较小的音节序列映射到同一个超类序列,以构建超类索引库。超类索引库的建立缩小了声学距离的计算空间,但声学距离的计算仍不可避免。将索引库中序列间的声学距离预先计算并存储为距离索引,通过查表的方法即可快速获取序列间的相似性。实验表明,分层索引技术虽然增加了索引的存储容量,但更大程度上降低了系统的检索时间。