论文部分内容阅读
概率生成模型是机器学习领域中的一类重要模型,在许多问题上有着广泛的应用,并且展现了出色的效果。本文主要研究某几种具有隐变量的概率生成模型,包括其本身的性质以及应用。具体而言,是深度玻尔兹曼机和序列变分自编码器这两类模型,而这两类模型的学习和训练都需要用到变分学习的框架。变分学习提供了一种与马尔可夫链蒙特卡洛方法不同的框架,将原始问题所求转化为某个优化问题的解,在转化之后,求解的过程一般更加方便和高效。在深度学习领域中,一般使用多层神经网络作为拟合函数,此时,传统的在某个特定的函数空间中对目标泛函进行优化的过程,可以转变为对神经网络参数进行学习的过程,并纳入神经网络的优化框架中进行求解,这大大简化了解决问题的过程,使得基于神经网络的变分方法能够应用于更广泛更复杂的问题上。本文首先介绍了一类具有特殊结构的基于无向图的经典概率生成模型,即深度玻尔兹曼机,阐述其原理,并根据其特点,提出了一种新的形状修复算法。通过设置合适的掩模,并从深度玻尔兹曼机中采样,该方法能够在不借助缺失区域先验信息的情况下,完成对形状的修复。本文随后引入了一类新的概率生成模型,即神经自回归密度估计器,它是由受限玻尔兹曼机启发而得到的。我们将该模型与深度玻尔兹曼机训练过程中的平均场方法结合,提出了一种改进的变分学习算法,并利用改进后的变分学习框架训练深度玻尔兹曼机。实验表明使用该算法训练得到的模型,比原先的深度玻尔兹曼机具有更加优良的性能。序列变分自编码器是另一类重要的概率生成模型。我们将自注意力机制引入到序列变分自编码器中,并提出一种整合的框架,将之应用于文本处理任务中,使得模型能够同时处理文本分类问题和文本生成问题。通过显式地将类别信息引入解码器,模型能够根据类别信息生成不同种类的文本。另外,本文还对序列变分自编码器的隐空间结构进行了研究。首先利用重要性采样,改善了原先的变分下界,使得变分下界更紧,令学习得到的变分后验概率与真实的后验概率距离更近。随后又将正规流的方法引入序列变分自编码器,基于正规流的变分后验概率能够更好地拟合后验概率,提高后验概率对应的隐空间的灵活性。实验结果表明,通过参数的调节,基于正规流的序列变分自编码器能够得到三种不同的生成模式,将原始的序列变分自编码器以及基于重要性采样的序列变分自编码器的性质统一在一个框架中。同时,在正规流的作用下,隐空间的结构也被拓展了。