论文部分内容阅读
声学模型训练主要基于有监督的学习方式,大量的标注数据参与训练用以改善声学模型的性能。尽管随着现代传播媒介的高速发展、互联网等的飞速兴起,海量的语音数据获取非常容易,但是这些数据在训练前需要进行标注,而标注的代价昂贵、过程枯燥乏味并且异常困难。因此,在声学模型训练中引入主动学习机制,通过主动选择包含信息量大的未标注样本交由人工标注并用于声学模型训练,从而使用尽可能少的训练数据获得较高的分类性能很有研究价值。本文围绕声学建模中的主动学习进行了相关研究,主要的工作及创新包括以下几个方面:1.提出一种基于K-L散度的初始集合选择算法初始样本集合的选择对主动学习的收敛速度有很大的影响,但是传统的主动学习中,初始样本集合都是由一定数量随机选择的未标注样本标注后组成的。本文提出了一种基于K-L散度的初始集合选择算法,分别对未标注样本集和多组初始样本集的分布进行高斯混合模型GMM建模,并使用K-L散度计算未标注样本集和各个初始样本集分布之间的相似性,最终选择同未标注样本集之间K-L散度最小的集合作为主动学习系统的初始样本集。实验表明,该算法选择的初始样本集用于主动学习系统可以获得很好的收敛速度。2.基于不同置信度准则的样本评价算法本文提出了基于不同层次混淆网络的样本评价算法。尽管基于词混淆网络的后验概率是声学建模主动学习中用于评价未标注样本最有效的置信度准则,但是汉语中词具有非常灵活的结构,生成词混淆网络时会出现边界混淆的问题,生成的后验概率不能很好的评价未标注样本。因此,本文设计了多层次混淆网络的生成框架,并分别使用基于字、音节、音素等层次混淆网络得到的后验概率评价未标注样本。此外,本文还提出了一种基于多预测子组合的样本评价算法。目前,声学建模中的主动学习主要采用单一预测子比如后验概率等来评价样本,但是这种方法不能综合多种知识源的信息对样本进行全面评价。本文在每次迭代时,首先构造未标注样本的预测子组合;随后使用基于字词混合的识别结果评价算法标记支持向量机的训练集;然后训练生成支持向量机,并将其识别未标注样本得到的后验概率用于样本评价,从而提供了一种综合不同知识源信息评价未标注样本的思路。实验表明,上述两种样本评价算法是非常有效的。3.提出一种基于潜主题相似度的样本置信度提取算法目前,语音识别的关键已取决于后处理系统的解模糊以及纠错能力,如何提取独立于解码信息并且源于高层信息的置信度已经非常重要。本文提出了一种基于潜主题相似度的样本置信度提取算法,通过潜狄利克雷分配LDA计算得到语音样本识别结果的上下文主题分布以及该样本中每个词的主题分布,并将二者之间的主题相似度作为词的置信度。实验表明,基于潜主题相似度的样本置信度有着非常好的信息补充作用,和来源于解码信息的置信度之间可以很好的进行信息互补。4.提出一种声学模型的选择性训练算法目前,基于置信度的主动学习和半监督学习将每次迭代选中的样本全部用于声学模型训练,并没有考虑样本中各个词、字或者音节等层次上置信度的情况。本文提出了一种声学模型的选择性训练算法,尝试有选择的使用训练样本中的部分单元(词、字或者音节等)参与声学模型训练,并将其应用到半监督学习中。初始实验表明,在选择单元比例较小的情况下,使用选择性训练和半监督学习进行结合是有效的。