基于非参贝叶斯方法的声学单元建模技术及其应用研究

来源 :战略支援部队信息工程大学 | 被引量 : 0次 | 上传用户：wn208001

【摘要】

：

随着人们获取语音数据的便利化,使得我们生活在一个可以无限获取语音数据的时代,尽管如此,我们并不能充分有效地使用未标注语音数据,而对语音数据进行标注是一项耗时长且费用

【作者】

：

王蓉蓉

【出处】

：

战略支援部队信息工程大学

【发表日期】

：

2018年01期

【关键词】

：

非参贝叶斯声学单元发现多语言一次性学习层次语言学结构变分贝叶斯迁移学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着人们获取语音数据的便利化,使得我们生活在一个可以无限获取语音数据的时代,尽管如此,我们并不能充分有效地使用未标注语音数据,而对语音数据进行标注是一项耗时长且费用高的过程。为了使语音识别任务能够取得更广泛的成功,需要降低对大规模标注数据的依赖性。语音信号的无监督的声学单元发现旨在从未标注语音数据中发现声学单元,在自动语音识别和认知科学领域有着广泛的应用前景。本文基于非参贝叶斯方法,对语音中的声学单元发现技术及其应用展开研究,主要工作及创新点如下:1.基于不同语言的语音中有相似的声学单元的特性,提出了一种基于多语言的声学单元发现技术。采用狄利克雷过程(Dirichlet Process,DP)作为先验,建立狄利克雷隐马尔科夫模型(Dirichlet Process Hidden Markov Model,DPHMM)进行声学单元发现。测试语言采用另一种不同的语言,即TIMIT语料库。实验结果表明,采用多语言训练的非参贝叶斯模型能够发现与英语音素集高度相关的声学单元。2.提出一种基于多语言的口语词的一次性学习方法。采用一个贝叶斯层次隐马尔科夫模型(Hierarchical Hidden Markov Model,HHMM)进行声学单元发现,不仅获取声学单元的一元统计分布,还得到了声学单元间的二元转移概率。由于每个词均可用这种声学单元组合得到,基于发现的声学单元,实现了口语词的一次性学习分类实验。在分类任务中,仅仅基于一个口语词样例对新的词分类,分类词采用与训练语言不同的英语、日语和汉语。实验结果表明,每种语言的分类实验都获得了不错的分类结果,即采用多语言获取的声学单元模型能够较好地指导不同目标语言的口语词分类。3.提出一种基于非参贝叶斯方法的语言学层次结构发现方法。以自适应语法(Adaptor Grammar,AG)模型作为基础,将其与噪声信道模型、声学模型整合成一个新的概率框架模型,实现语音数据中语言学层次结构发现。该框架模型不仅可以从连续语音中发现声学单元,同时能直接从声学信号中学习更高层的结构,例如音节和词汇单元。在TIMIT语料库上测试结果表明,该模型可以学习子词,单词和多词短语的词汇单元。主观对比分析表明,发现的语言结构与实际句子的语言结构具有较好的一致性。4.提出一种基于变分非参贝叶斯方法的声学单元发现方法。在贝叶斯模型的推理算法中,一般采用吉布斯采样(Gibbs Sampling,GS)的随机近似方法,该方法中模型参数的采样不能并行计算且收敛速度慢,对于处理大数据是受限制的问题,本文采用一种确定性近似方法,即变分贝叶斯(Variational Bayesian,VB)方法。变分贝叶斯推断能够进行并行化训练,通过一组相互依赖的等式进行不断的迭代来获得最优解。实验结果表明,由于并行化,VB训练比GS更快。VB训练过程是完全不需要边界信息的,而GS过程需要对语音数据预分段,且VB训练性能仍然是优于GS的。

其他文献

基于子空间分离和先验知识的过程监测方法研究

基于数据驱动的监测方法在控制领域受到越来越多的关注,众多学者在该研究方向上取得了突出的成就。针对间歇过程数据的非线性、非高斯性和多阶段性,本文提出一种基于子空间分

学位

过程监测子空间分离KICA先验知识

人体粪便镜检图像中红白细胞的分割与识别方法研究

人体粪便镜检图像中红白细胞的分割与识别方法研究涉及到计算机图像处理和图像模式识别等多门学科的知识。粪便镜检图像相比血液和尿沉渣镜检图像,图像中的有形物体具有更复

学位

粪便镜检图像图像分割Chan-Vese模型细胞特征随机决策森林

指静脉识别系统的仿冒攻击检测算法研究

指静脉识别作为一门新兴的的生物特征识别技术已在个人身份认证领域得到了广泛的关注并取得了较大的研究进展。相比人脸、指纹等其他生物模态,手指静脉位于手指表皮下且只能

学位

指静脉识别系统仿冒攻击检测全变分局部二值模式卷积神经网络

Grassmann流形上的隐式数据扩增及其应用

动作识别在生活中有着广泛的应用,而基于Grassmann流形的识别方法是一种采用流形上的线性子空间来表示动作序列的分类方法,在多种动作识别任务中已经取得了成功。为了能够处

学位

子空间表示人体动作识别流形学习数据扩增

基于分区模型的个性化新闻推荐研究

随着互联网技术的发展,上网浏览新闻已成为人们获取信息的主要手段。然而网络数据爆炸式的增长让用户陷入了面对大量垃圾信息的尴尬境地,如何快速准确的获取用户需要的信息,

学位

新闻推荐基于内容推荐协同过滤动态偏好模型长期偏好模型

菱形四轮移动系统的控制系统研究

菱形四轮移动系统是一种新型的摇臂—转向结构的轮腿式移动机器人。由于采用菱形结构使得它具备了很强的地形环境适应能力,跨越垂直障碍能力,原地转向能力,甚至具备有越过宽

学位

移动系统控制系统运动控制DSP

基于图像信息的多机器人检测与轨迹跟踪算法

计算机视觉是指通过摄像机、计算机等设备获取、加工、处理周围环境的图像信息,从而实现类似人类视觉“看”的功能。在计算机视觉领域中,基于视频的多目标检测与跟踪技术的研

学位

智能视频监控多目标检测多目标跟踪Codebook算法Kalman滤波

基于变焦立体视觉的三维全景图像生成方法研究

随着互联网技术与虚拟现实的快速发展,全景图技术在旅游景点360°全景展示、地图道路导航和数据可视化等方面得到了广泛应用。目前生成三维全景图像的技术主要基于三维扫描设

学位

SIFT区域生长稠密视差图摄像机标定ICP

马克思公正观及现代价值

从古至今,公正一直就是人们的社会追求目标。尤其是到了近代,随着生产力的进步,社会也在高速发展,公正的理念更加深入人心。而马克思公正观作为马克思主义的重要组成部分,表

学位

马克思公正观形成过程实现条件现代价值

SF6断路器开断过程中辐射电磁波信号的试验研究

SF6断路器的开断性能直接影响着电网的安全稳定运行,对其进行有效检测具有重要意义。当前,应用辐射电磁波法对SF6断路器的开断性能进行带电检测取得了较好的实际应用效果。但开断电弧辐射电磁波的机制尚不十分明确,辐射电磁波法的缺陷判定依据缺乏理论支持,亟需开展SF6断路器开断过程中辐射电磁波信号的试验研究,建立开断电弧与辐射电磁波间的直接关联关系。本文建立了断路器模拟试验研究平台,通过振动传感器同步触发

学位

SF6断路器开断辐射电磁波高速摄像

基于非参贝叶斯方法的声学单元建模技术及其应用研究

与本文相关的学术论文