论文部分内容阅读
随着人们获取语音数据的便利化,使得我们生活在一个可以无限获取语音数据的时代,尽管如此,我们并不能充分有效地使用未标注语音数据,而对语音数据进行标注是一项耗时长且费用高的过程。为了使语音识别任务能够取得更广泛的成功,需要降低对大规模标注数据的依赖性。语音信号的无监督的声学单元发现旨在从未标注语音数据中发现声学单元,在自动语音识别和认知科学领域有着广泛的应用前景。本文基于非参贝叶斯方法,对语音中的声学单元发现技术及其应用展开研究,主要工作及创新点如下:1.基于不同语言的语音中有相似的声学单元的特性,提出了一种基于多语言的声学单元发现技术。采用狄利克雷过程(Dirichlet Process,DP)作为先验,建立狄利克雷隐马尔科夫模型(Dirichlet Process Hidden Markov Model,DPHMM)进行声学单元发现。测试语言采用另一种不同的语言,即TIMIT语料库。实验结果表明,采用多语言训练的非参贝叶斯模型能够发现与英语音素集高度相关的声学单元。2.提出一种基于多语言的口语词的一次性学习方法。采用一个贝叶斯层次隐马尔科夫模型(Hierarchical Hidden Markov Model,HHMM)进行声学单元发现,不仅获取声学单元的一元统计分布,还得到了声学单元间的二元转移概率。由于每个词均可用这种声学单元组合得到,基于发现的声学单元,实现了口语词的一次性学习分类实验。在分类任务中,仅仅基于一个口语词样例对新的词分类,分类词采用与训练语言不同的英语、日语和汉语。实验结果表明,每种语言的分类实验都获得了不错的分类结果,即采用多语言获取的声学单元模型能够较好地指导不同目标语言的口语词分类。3.提出一种基于非参贝叶斯方法的语言学层次结构发现方法。以自适应语法(Adaptor Grammar,AG)模型作为基础,将其与噪声信道模型、声学模型整合成一个新的概率框架模型,实现语音数据中语言学层次结构发现。该框架模型不仅可以从连续语音中发现声学单元,同时能直接从声学信号中学习更高层的结构,例如音节和词汇单元。在TIMIT语料库上测试结果表明,该模型可以学习子词,单词和多词短语的词汇单元。主观对比分析表明,发现的语言结构与实际句子的语言结构具有较好的一致性。4.提出一种基于变分非参贝叶斯方法的声学单元发现方法。在贝叶斯模型的推理算法中,一般采用吉布斯采样(Gibbs Sampling,GS)的随机近似方法,该方法中模型参数的采样不能并行计算且收敛速度慢,对于处理大数据是受限制的问题,本文采用一种确定性近似方法,即变分贝叶斯(Variational Bayesian,VB)方法。变分贝叶斯推断能够进行并行化训练,通过一组相互依赖的等式进行不断的迭代来获得最优解。实验结果表明,由于并行化,VB训练比GS更快。VB训练过程是完全不需要边界信息的,而GS过程需要对语音数据预分段,且VB训练性能仍然是优于GS的。