论文部分内容阅读
为观察变量找到相应的隐含变量是一种有效的概率建模的方法。这种方法包括两个部分:(1)建立观察变量与隐含变量的联合概率;(2)通过求边缘概率的方法获得观察变量的概率分布。这类模型称为隐含变量模型。本文考虑变量符合高斯分布的线性隐含变量模型,称之为线性高斯模型(Linear Gaussian Models, LGM)。本文将从以下三个方面展开讨论:首先,讨论现有的线性高斯模型之间的关系,证明了概率主成分分析(Probabilistic Principal Component Analysis, PPCA)与概率子空间分析(Probabilistic Subspace Analysis, PSA)的等价性,通过对噪声模型做新的不同假设推广了现有的混合线性高斯模型(Mixture of Linear Gaussian Models, MLGM),并且给出了统一的框架。其次,提出了新的非线性隐含变量模型:核高斯模型(Kernel Gaussian Models, KGM)。核高斯模型有两个特点:(1)非线性化观察变量,这点与传统的非线性隐含变量模型中非线性化隐含变量是不同的;(2)引入核方法来有效的估计模型。进一步,提出混合核高斯模型(Mixture of Kernel Gaussian Models, MKGM)以实现非线性概率估计。与混合线性高斯模型相比,处理非线性问题时混合核高斯模型往往会取得较好的效果。最后,讨论了谱聚类(Spectral Clustering)与一种核高斯模型—核主成分分析(Kernel Principal Component Analysis, KPCA)之间的关系,指出谱聚类是一种特殊的加权核主成分分析模型。在此基础上,提出了加速的谱聚类算法。本文设计了大量的实验,如数据聚类、图像压缩、图像分割以及字符识别,来验证本文提出的新模型新算法的有效性与正确性。