论文部分内容阅读
面向低资源场景的语音表示学习是计算机语音语言处理的一个非常基础的任务,其特点是低资源即目标语音数据缺少语言学相关的人工标注信息,其目的是为语音信号提供具有语言学内容及语音基础单元表达能力的表示方法。关于低资源场景语音表示学习的研究具有广泛而深远的意义。一方面,它可为语言习得等认知科学领域的探索提供基础计算模型和验证方法;另一方面,它可为自动语音识别等工程应用提供基础技术支撑。本文针对低资源的特点,围绕无监督的语音基础结构信息挖掘和跨语种信息借用的策略,提出多种具有语音基础结构信息表达能力的语音特征表示方法,并考察这些特征学习方法在基于样例的口语词汇检出和语音文档主题分割任务上的应用效果。现对本文工作主要贡献总结如下:(1)提出一种基于狄利克雷过程高斯混合模型(Dirichlet process Gaussian mixture model,DPGMM)的无监督类音素聚类及后验概率特征提取方法。为了尽量降低语音表示学习的人工参与,本文采用非参贝叶斯模型表示语音基础结构信息。鉴于非参贝叶斯模型推断效率较低,本文采用DPGMM这一浅层非参贝叶斯模型及其基于Metropolis-Hastings的可并行推断算法来实现语音帧的聚类。本文将类簇视作类音素单元,并提取后验概率特征作为观测语音的特征表示。本文基于DPGMM的后验概率特征在国际测评Zero Speech2015数据集上获得最佳的音素区分性效果。(2)提出一种基于DPGMM的无监督瓶颈(Bottle-Neck)特征学习方法。鉴于后验概率特征维度较高,不利于计算密集的后端应用,同时也注意到深度神经网络模型(Deep neural network,DNN)具有优秀的特征学习能力,因此本文结合DPGMM与DNN的特点,提出具有语音基础结构表达能力的无监督瓶颈特征学习方法。在不依赖人工标注的情况下,该方法可以获得能够媲美有监督跨语种瓶颈特征的特征表示。在基于样例的口语词汇检出中,本文的无监督瓶颈特征也取得了较后验概率特征更佳的准确度。(3)提出一种基于DPGMM的无监督多语种瓶颈特征学习方法。针对多个语种的低资源语言,结合DPGMM无监督学习的特点以及多任务学习(Multi-task learning,MTL)的深度神经网络模型(MTL–DNN)抓取学习任务共享信息的特点,本文提出一种基于DPGMM和MTL–DNN,利用多语种数据学习多语种共享的瓶颈特征表示的方法。该特征表示方法对不同低资源语言均有良好的语音基础结构信息表达能力,在国际测评Zero Speech2017中取得了良好的音素区分性性能。(4)提出一种融合低资源目标语种无监督类音素信息与富资源跨语种音素信息的MTL特征学习方法。注意到跨语种富资源语言有大量人工标注数据可用,本文采用MTL–DNN融合跨语种的音素信息与无监督类音素信息,提出一种语音基础结构与内容信息表达能力优于有监督跨语种瓶颈特征和无监督瓶颈特征的低维度瓶颈特征表示方法。从口语词汇检出、音素区分性测试以及特征可视化多个角度,本文也具体分析了多任务瓶颈特征的语音内容表达能力。(5)提出一种基于语音表示的块数自确定语音文档主题分割方法。本文以语音文档主题分割,探讨了本文特征提取方法在低资源场景下的应用前景。针对低资源场景的文档主题分割任务,本文提出一种基于语音表示的块数自确定语音文档主题分割方法,避免语音文档主题分割对人工抄本和主题块数人工预设的依赖。