论文部分内容阅读
真实世界应用中的许多高维数据都能被建模成为位于低维的线性/非线性流形附近的数据点。以图像数据集为例,数据集中的潜在变化对应于诸如物体姿态、光照或人脸表情等等的连续物理变化。从那些流形上带噪声采样得来的数据点中发现流形的结构,是非监督学习中非常具有挑战性的问题。近年来,人机交互方面与流形相关的方法已经成为了日益热点的研究领域。真实世界的流形也与人的视觉感知密切相关。人工神经网络是对真实世界流形进行建模和解释的强有力工具。通过操纵所学习到流形的低维自由参数,我们还能够合成或者估计出我们所期望的真实世界数据。这种学习和合成的双向(“bi-directional”)过程与典型的人类认知行为非常近似。在人类的行为中通常都是从无组织的观察中学习,然后使用学习到的知识去推测未知的事物。传统的降维方法如主元分析(PCA)受制于它的线性性质。其他的方法,包括自组织图、流形学习和核方法等,被提出来处理低维流形的非线性性质。但是这些方法又有他们自身的局限。本文的方法从那些前人的工作中受到启发并且进行了改进。按照所描述的潜在低维结构复杂程度递增的顺序,本文的主要贡献如下:1.提出了一种新的基于自相关矩阵的均值更新增量主元分析算法。这种方法在使用了在输入数据表示上的两个变换。更新的特征子空间进行重新居中,而无需重新计算旧数据的自相关矩阵。旧信息所需的存储空间和自相关矩阵的维数保持恒定,而不是随着输入数据的总数增加。在更新完成后不需要存储旧的数据。与目前已有的方法比较,本文提出的方法对于视觉中,要求更低计算时间的子空间学习和识别任务是一个好的选择。2.提出了一种新的计算高效的局部主元分析算法来结合NGAS-PCA和PCA-SOM的优点。每一个局部单元都有与之对应的平均向量和协方差矩阵。算法中使用的新的竞争度量隐式地结合了重构误差和输入数据到单元中心的距离。在该算法中,数据分布的学习过程中消除了额外的主元空间更新步骤。该模型适用于非线性的模式学习和回忆。在算法训练过程完成之后,数据分布被表示成为了一系列的局部线性单元。并且在这种模式表示中不需要关于最优主元空间的先验信息。3.提出了一种新的变形模型,即泛化的拓扑保持自组织图(gTPSOM),来将拓扑保持的自组织映射机制引入神经元竞争的变形模型。这种模型是从视觉感应自组织图(ViSOM)中获得启发。在ViSOM中,数据的映射在神经元图上同时保持了输入数据点之间的距离和整个输入空间的拓扑结构。本文提出的gTPSOM模型由对局部边界变化施加约束的自适应力场来并行驱动的。算法通过区域辅助的活动轮廓(Region Aided Active Contour)和水平集(Level Sets)方法来实现。gTPSOM模型适用于精确的边界检测和具有较强边界强度起伏的复杂形状恢复。4.提出了一种基于流形的新方法来建一个输入空间和特征空间之间的非线性映射,从而不再孤立的考虑流形的学习和合成。这个非线性映射是由在输入空间中建立局部生成单元模型并且在特征空间中构建全局仿射变换来实现的。这种形式的方法导致样本外数据点在输入空间和特征空间之间来回转换可以由简单的解析解得到。本文的方法避免了在流形学习与双向样本外数据扩展中的交替最小二乘解或局部极小的问题。此外,本文的方法还能估计潜在的流形维数,且对最近邻居的个数有较好的鲁棒性。