论文部分内容阅读
语音查询项检索是指根据用户输入的查询项,在大量语音资源中搜索并返回相关信息的过程,在军事与信息安全、语音资源的分类与管理以及多媒体搜索引擎等领域都有广泛应用。近年来,基于加权有限状态转换器(Weighted Finite-state Transducer,WFST)的语音查询项检索技术逐渐发展成为一种非常流行的语音检索技术,受到了越来越多的关注。在WFST框架下,本文对词格(Lattice)结构的改进、集外词查询项的扩展、判决阈值的设定等开展了研究,达到加快检索速度的同时提高系统检索精度的目的,主要工作如下:(1)研究了加权有限状态机的相关理论,搭建了基于WFST的语音查询项检索系统。索引建立阶段,该系统直接将词格转换为自动机,经过预处理后建立基于时间的因子转换器,将所有因子转换器进行联合、优化得到WFST索引。查询阶段,将查询项转化为自动机后与索引进行合成运算得到表示查询结果的自动机。实验结果表明,采用WFST方法进行索引建立和检索,与传统直接对词格搜索的方法相比,检索速度得到明显提升。(2)针对词格结构较为复杂,冗余信息多,占用存储空间大等问题,提出了一种基于混淆网络的WFST语音查询项检索技术,以混淆网络代替词格建立WFST索引。索引建立阶段,首先由词格生成混淆网络,并转化为自动机,然后通过加权自动机索引算法建立WFST索引,检索阶段采用合成算法进行检索。实验结果表明,在保证系统检索性能的前提下,与直接以词格建立的WFST索引相比,以混淆网络建立的WFST索引尺寸更小,搜索速度更快。(3)针对语音查询项检索系统中集外词检索性能较差的问题,在WFST框架下提出了一种基于发音混淆模型的集外词查询项扩展方法,将查询项扩展成多发音序列来解决集外词问题。发音混淆模型在WFST框架下用发音混淆矩阵转化的P2P转换器表示,该模型可以充分反映识别错误的情况以及音素之间相互混淆的可能性大小。在WFST框架下,首先利用G2P模型生成查询项的发音序列,然后加入发音混淆模型生成N-best多发音序列,以补偿自动语音识别错误造成的索引与查询项之间存在的差异所带来的影响,从而有效降低漏警率。实验结果表明,加入发音混淆模型之后,系统集外词检索的性能得到明显提升。(4)针对判决阶段全局阈值性能较差的问题,提出了一种基于相关得分分布的查询项特定阈值方法。该方法在系统判决阶段根据每个查询项候选者的相关得分分布,为每个查询项设定不同阈值。查询项候选结果的判决问题可以看作假设检验问题。首先确定判决框架,得到阈值计算函数;其次用统计方法确定查询项候选者相关得分的分布模型为混合指数模型;然后通过无监督的EM算法估计混合指数模型参数,采用K-means聚类法进行初始化,解决EM算法对初始值较为敏感的问题;最后利用贝叶斯最小风险准则,根据模型参数计算出查询项的阈值。实验结果表明,该阈值方法在准确率/召回率曲线中有更好的检索性能。