基于词对学习的低资源场景声学特征表示技术研究

来源 :西北工业大学 | 被引量 : 0次 | 上传用户:yy04081406
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在低资源场景中,由于标注语料有限,深度学习无法获得一个稳健的声学特征表示模型。近年来,词对学习(Pairwise Learnining)利用成对样例作为弱监督信息进行特征表示,成为低资源场景中的热点研究方向。本文以低资源语音场景为背景,研究基于词对学习的声学特征表示方法,考察这些方法在ABX音素区分、孤立词区分、实例查询语音搜索和关键词检索任务上的应用效果。主要贡献总结如下:1.提出一种基于瓶颈特征的词对学习声学特征表示方法。由于目标语言中的语料有限,传统基于频谱特征的词对学习声学特征表示方法在低资源场景语音任务中判别性不强。本文利用非目标语言中的丰富语料去训练跨语言和多语言瓶颈特征提取器,然后在目标语言中提取瓶颈特征作为输入特征去学习更有效的词对学习声学特征。孤立词区分和实例查询语音搜索实验表明瓶颈特征比频谱特征的音素区分能力更强,而且经过词对学习之后的声学特征能进一步提高音素或者词语区分能力。2.提出一种基于词对学习的无监督声学特征表示方法。基于词对学习的声学特征表示对词对信息和输入特征的依赖较大。本文利用由狄利克雷过程高斯混合模型得到的类音素标签去训练一个带有瓶颈层的深度神经网络并且提取无监督多语言瓶颈特征;然后选用无监督子词发现算法去寻找类词语音对,将词对学习方法运用在这些类词语音对上去获取更有效的无监督帧级声学特征。Zero Speech2017国际评测实验表明该无监督帧级声学特征在ABX音素区分测试中平均错误率可以大幅减少到基线系统的65%。3.提出一种基于上下文填充的词对学习声学词嵌入方法。在实例查询语音搜索中,声学词嵌入的学习中使用的通常都是切分好的孤立口语词,而却被应用在没有词边界的搜索语音库中,存在明显的不匹配问题。本文将口语词的前后帧序列当做上下文信息,用上下文填充的方法去学习基于卷积神经网络和循环神经网络的声学词嵌入,并且在语音搜索库中通过滑动窗的方法查找匹配的口语查询。与帧级自编码特征相比,基于上下文填充的循环神经声学词嵌入在搜索速度上相对提升了9.35倍,并且在平均准确率上相对提升了16.5%。4.提出一种基于深度二元嵌入的快速实例语音搜索方法。声学词嵌入通常为实值元素并且维度很高导致计算量过大。本文通过深度哈希网络去学习深度二元嵌入,然后采用汉明距离去加快实例查询语音搜索的速度。与此同时,在深度哈希网络中引入注意力机制并且使用惩罚项、量化损失和三体损失这三个特定的目标函数去指导训练。与循环神经声学词嵌入相比,深度二元嵌入在搜索速度上相对提升了8倍,并且在平均准确率上相对提升了18.9%。5.本文提出一种基于声学词嵌入的语音关键词二次验证方法。由于真实场景存在着说话人口音和各种背景噪声干扰,深度关键词检索系统的性能明显下降。本文提出一种基于声学词嵌入的模板匹配对深度关键词检索系统得到的语音关键词候选进行二次验证的方法。在声学词嵌入的学习过程中,采用三体损失、反向三体损失和铰链损失这三个特定的目标函数来指导网络的训练。实验表明基于声学词嵌入的语音关键词二次验证方法比深度关键词检索系统方法的准确率相对提升了13.6%。
其他文献
随着社会的快速发展,网约车作为“互联网+共享经济”的代表,它的出现缓解了传统出租车市场“打车难”的现象,为社会提供更多就业岗位,成为常见的公共交通工具,给普通民众出行带来便捷。研究网约车出现到普及经历的媒介形象变化,有助于了解其他新生公共交通工具媒介形象变化过程,了解大众媒体对政策制定的影响。本文对《新京报》2012年9月9日至2020年12月31日间刊发的有关“网约车”的报道进行汇总统计,文章以
随着现代信息技术的快速发展,我国高校的网络统战工作环境也随之发生了重大变化。面对新时期高校网络统战工作的新变化和挑战,是否能提出有效的创新路径来解决问题,对高校网络统战工作的成败起到至关重要的作用。所以,在新形势下,努力用好新媒体技术开展高校网络统战工作,既是高校统一战线工作的必然要求,也是高校自身建设与发展的内在需要。
智能电网是国家的关键基础设施,其网络安全是保障国家重要基础设施安全的必要环节。SOC作为一种实现网络及信息安全自适应持续改进的安全运营机制,对于应对智能电网所面临的各项安全挑战具有深远意义。首先,论文基于安全保障框架构建了SOC基础模型,提出了SOC功能架构和系统架构方案,分析了智能电网面临的安全挑战和智能电网安全运营需求,构建了智能电网SOC系统架构,指出了智能电网SOC演进技术路线。其次,文中
学位
学位
系统风险是推动股票市场整体价格变化和波动的重要因素。在系统风险冲击下,股票市场上的所有股票价格和大盘指数一般都会经历先下跌、后上涨的波动过程,但是不同股票在系统风险冲击期间和系统风险冲击后常常有不同的下跌和上涨幅度,呈现出较大的波动性差异。不同股票在相同系统风险冲击下为什么会表现出不同的波动性?产生这种现象的内在原因是什么?这显然是一个值得深入研究的问题。一般来说,上市公司股票价格走势取决于其基本
学位
动态系统的估计问题广泛存在于自动驾驶、目标跟踪、语音信号处理以及信息融合等领域。以贝叶斯估计理论为基础的高斯近似估计器,因计算量适中、易于实现且满足大多数动态系统对状态估计精度的要求,在过去几十年受到了广泛的关注,并逐步成为解决航空航天工业中状态估计问题—如飞行器导航、气动力模型辨识、故障诊断以及飞行目标跟踪等的利器。然而,在当下日益复杂的应用环境中,高斯近似估计算法的性能面临越来越严峻的挑战,尤