面向低资源场景的语音表示学习及其应用

来源 :西北工业大学 | 被引量 : 0次 | 上传用户:kaifeng_chen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面向低资源场景的语音表示学习是计算机语音语言处理的一个非常基础的任务,其特点是低资源即目标语音数据缺少语言学相关的人工标注信息,其目的是为语音信号提供具有语言学内容及语音基础单元表达能力的表示方法。关于低资源场景语音表示学习的研究具有广泛而深远的意义。一方面,它可为语言习得等认知科学领域的探索提供基础计算模型和验证方法;另一方面,它可为自动语音识别等工程应用提供基础技术支撑。本文针对低资源的特点,围绕无监督的语音基础结构信息挖掘和跨语种信息借用的策略,提出多种具有语音基础结构信息表达能力的语音特征表示方法,并考察这些特征学习方法在基于样例的口语词汇检出和语音文档主题分割任务上的应用效果。现对本文工作主要贡献总结如下:(1)提出一种基于狄利克雷过程高斯混合模型(Dirichlet process Gaussian mixture model,DPGMM)的无监督类音素聚类及后验概率特征提取方法。为了尽量降低语音表示学习的人工参与,本文采用非参贝叶斯模型表示语音基础结构信息。鉴于非参贝叶斯模型推断效率较低,本文采用DPGMM这一浅层非参贝叶斯模型及其基于Metropolis-Hastings的可并行推断算法来实现语音帧的聚类。本文将类簇视作类音素单元,并提取后验概率特征作为观测语音的特征表示。本文基于DPGMM的后验概率特征在国际测评Zero Speech2015数据集上获得最佳的音素区分性效果。(2)提出一种基于DPGMM的无监督瓶颈(Bottle-Neck)特征学习方法。鉴于后验概率特征维度较高,不利于计算密集的后端应用,同时也注意到深度神经网络模型(Deep neural network,DNN)具有优秀的特征学习能力,因此本文结合DPGMM与DNN的特点,提出具有语音基础结构表达能力的无监督瓶颈特征学习方法。在不依赖人工标注的情况下,该方法可以获得能够媲美有监督跨语种瓶颈特征的特征表示。在基于样例的口语词汇检出中,本文的无监督瓶颈特征也取得了较后验概率特征更佳的准确度。(3)提出一种基于DPGMM的无监督多语种瓶颈特征学习方法。针对多个语种的低资源语言,结合DPGMM无监督学习的特点以及多任务学习(Multi-task learning,MTL)的深度神经网络模型(MTL–DNN)抓取学习任务共享信息的特点,本文提出一种基于DPGMM和MTL–DNN,利用多语种数据学习多语种共享的瓶颈特征表示的方法。该特征表示方法对不同低资源语言均有良好的语音基础结构信息表达能力,在国际测评Zero Speech2017中取得了良好的音素区分性性能。(4)提出一种融合低资源目标语种无监督类音素信息与富资源跨语种音素信息的MTL特征学习方法。注意到跨语种富资源语言有大量人工标注数据可用,本文采用MTL–DNN融合跨语种的音素信息与无监督类音素信息,提出一种语音基础结构与内容信息表达能力优于有监督跨语种瓶颈特征和无监督瓶颈特征的低维度瓶颈特征表示方法。从口语词汇检出、音素区分性测试以及特征可视化多个角度,本文也具体分析了多任务瓶颈特征的语音内容表达能力。(5)提出一种基于语音表示的块数自确定语音文档主题分割方法。本文以语音文档主题分割,探讨了本文特征提取方法在低资源场景下的应用前景。针对低资源场景的文档主题分割任务,本文提出一种基于语音表示的块数自确定语音文档主题分割方法,避免语音文档主题分割对人工抄本和主题块数人工预设的依赖。
其他文献
针对方位结构旋转角度有限的天线系统,方位机构和俯仰机构之间的连接电缆,在方位旋转过程中电缆会承受一定的弯扭力矩,不利于电缆的长时间使用。本文在目前电缆卷绕装置的研
采用快速全血(血清)平板凝集反应对遵义市辖区内某两个种鸡场进行沙门氏茵的检测。并采取相应措施建立沙门氏菌净化体系,极大限度地降低因沙门氏茵对遵义市养鸡业造成的损失,使得
鼻内镜手术是治疗慢性鼻窦炎及鼻息肉的新方法,具有痛苦小、操作精细、观察准确等特点,在清除发病原因的基础上重建和恢复鼻腔、鼻窦通气和黏膜纤毛的功能,是一种符合鼻腔鼻窦生
目的 用量子生物学从头算方法(ab initio)和密度泛函理论(DFT)研究了辐射防护剂DMSO和As2O3 及其作为肿瘤细胞诱导分化剂和凋亡剂的电子结构、光谱和量子作用机理.方法 量子生物
<正>报警是安防最早应用的产品门类,但当下发展步入渐趋式微境地,如何孕育新市场成为了关键,其中民用化是其出路。本期为业界带来海康威视新一代的无线报警套装,看其如何推动
明末清初这段历史时期里,吴三桂算得上是一个举足轻重的人物:在关键时刻,这位明朝边防大将迅速倒向满清一边,联合清军追杀李自成农民军,转战大半个中国,直至李自成败死。接着
王维的近体诗占他所有诗的三分之二,这些诗表现出了诗人的最高水平。这在学术界已是公论。而其中的一些或清新或壮丽的小诗多为诗人最具代表的作品,像《山居秋暝》、《终南山
一、为什么现在的孩子们这么喜欢卡通?首先,从视觉感受的角度来看,为迎合孩子们的口味,动漫作品中的人物形象或可爱,或憨厚,或帅气,或美丽,都能让人感到视觉上的享受。动漫作品的每幅
<正>高电压尖晶石LiNi0.5Mn1.5O4被认为是应用在电动汽车或混合电动汽车的最有前景的锂锂离子电池正极材料之一。LiNi0.5Mn1.5O4正极材料具有较高的放电电压(4.7 Vvs.Li+/Li),
会议