基于WFST的语音查询项检索技术研究

来源 :解放军信息工程大学 | 被引量 : 0次 | 上传用户:t920215
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音查询项检索是指根据用户输入的查询项,在大量语音资源中搜索并返回相关信息的过程,在军事与信息安全、语音资源的分类与管理以及多媒体搜索引擎等领域都有广泛应用。近年来,基于加权有限状态转换器(Weighted Finite-state Transducer,WFST)的语音查询项检索技术逐渐发展成为一种非常流行的语音检索技术,受到了越来越多的关注。在WFST框架下,本文对词格(Lattice)结构的改进、集外词查询项的扩展、判决阈值的设定等开展了研究,达到加快检索速度的同时提高系统检索精度的目的,主要工作如下:(1)研究了加权有限状态机的相关理论,搭建了基于WFST的语音查询项检索系统。索引建立阶段,该系统直接将词格转换为自动机,经过预处理后建立基于时间的因子转换器,将所有因子转换器进行联合、优化得到WFST索引。查询阶段,将查询项转化为自动机后与索引进行合成运算得到表示查询结果的自动机。实验结果表明,采用WFST方法进行索引建立和检索,与传统直接对词格搜索的方法相比,检索速度得到明显提升。(2)针对词格结构较为复杂,冗余信息多,占用存储空间大等问题,提出了一种基于混淆网络的WFST语音查询项检索技术,以混淆网络代替词格建立WFST索引。索引建立阶段,首先由词格生成混淆网络,并转化为自动机,然后通过加权自动机索引算法建立WFST索引,检索阶段采用合成算法进行检索。实验结果表明,在保证系统检索性能的前提下,与直接以词格建立的WFST索引相比,以混淆网络建立的WFST索引尺寸更小,搜索速度更快。(3)针对语音查询项检索系统中集外词检索性能较差的问题,在WFST框架下提出了一种基于发音混淆模型的集外词查询项扩展方法,将查询项扩展成多发音序列来解决集外词问题。发音混淆模型在WFST框架下用发音混淆矩阵转化的P2P转换器表示,该模型可以充分反映识别错误的情况以及音素之间相互混淆的可能性大小。在WFST框架下,首先利用G2P模型生成查询项的发音序列,然后加入发音混淆模型生成N-best多发音序列,以补偿自动语音识别错误造成的索引与查询项之间存在的差异所带来的影响,从而有效降低漏警率。实验结果表明,加入发音混淆模型之后,系统集外词检索的性能得到明显提升。(4)针对判决阶段全局阈值性能较差的问题,提出了一种基于相关得分分布的查询项特定阈值方法。该方法在系统判决阶段根据每个查询项候选者的相关得分分布,为每个查询项设定不同阈值。查询项候选结果的判决问题可以看作假设检验问题。首先确定判决框架,得到阈值计算函数;其次用统计方法确定查询项候选者相关得分的分布模型为混合指数模型;然后通过无监督的EM算法估计混合指数模型参数,采用K-means聚类法进行初始化,解决EM算法对初始值较为敏感的问题;最后利用贝叶斯最小风险准则,根据模型参数计算出查询项的阈值。实验结果表明,该阈值方法在准确率/召回率曲线中有更好的检索性能。
其他文献
<正>截止2016年底,我国银幕数已经超过美国,成为世界上银幕数最多的国家。但是除了当代MOMA影院有限的放映之外,我们没有一块市场化运营的艺术电影银幕。2016年的票房冷遇让
在过去三十多年的城市建设过程中,香港一直面临着人口密集与土地资源稀缺的巨大挑战,为增加土地供应,香港在开发利用地下岩洞空间方面积累了丰富的经验,并建成诸多高效运转的
三轴剪切过程中损伤及压融等力学性质对冻结盐渍土的强度及变形影响显著。通过对-15℃德令哈含盐砂土进行一系列的三轴剪切循环试验及CT扫描试验,分析冻结盐渍土在三轴试验过
结合工程实例,分析了顶板自密实混凝土裂缝的原因。从原材料、配合比设计、结构特点、施工环境、养护措施、浇注时间等方面,提出了相应的解决办法。就混凝土研究和应用中采用
不同的临床医生和医疗卫生机构对于同一事物,往往会采用不同的术语。医疗信息在不同机构、不同系统之间的识别与传递,需要规范化、广泛统一的医学术语提供底层支撑来保障语义
阅读为学生开启了探究过去、现在、未来奥秘的大门,阅读能培养高尚的情感及思维深度,阅读能使学生关注生活,重视生命意义。养成良好的读书习惯,掌握较好的读书方法,是人生发
工程外墙渗漏在各类施工质量事故中占了大部分的比例,它在人们的使用与正常生活中造成了相当大的影响。本文笔者结合多年的实践经验,进行分析住宅建筑外墙出现渗漏的主要原因,并