论文部分内容阅读
视觉是人类智能的重要组成部分,同时视觉信息数据也是人类最复杂和最有用的感觉输入信息。研究视觉信息的计算理论和算法,希望计算机具有人类的视觉这样的模式识别能力,是人类在基础研究和应用研究中所面临的最重大的挑战之一。目前,基于计算机的视觉信息分析的理论还不完善,对视觉信息的分析和研究还在广泛进行。虽然数据量巨大、维数高、非结构化的视觉信息数据能够提供更多方面的更完整的信息,但维数膨胀引发的“维数灾难”(curses of dimensionality)不可避免,因此在视觉信息数据分析中,维数约减技术经常是有用的甚至是必须的。传统的线性降维方法包括Principal Component Analysis (PCA)、Multi-Dimensional Scale (MDS)Linear Discriminant Analysis (LDA)等,它们的优点是涉及的数学理论较简单,并能产生显式的映射变换。但是现实中的高维数据(如视觉信息)大多是复杂的非线性结构,线性方法很难挖掘其数据结构和相关性。以LLE为代表的局部保持的流形学习方法具有广泛的应用背景,在高维数据的非线性降维,字符识别,人脸姿态识别等领域得到较好的应用。但是,由于视觉信息数据的高维复杂性,这些方法不可避免的也存在一些问题,如流形学习中时间信息的嵌入、多类图像数据或多镜头视频数据分析等。考虑到图像或视频数据的高维复杂性,本文拟对流形学习的相关算法进行深入分析,提出针对视觉信息数据的保局的流形学习算法,其主要研究工作和创新点体现在以下几个方面:a.流形学习的时间嵌入方法某些视觉信息如视频,时间是一个很重要的线索。然而流形学习算法却是与时间无关的,如何将时间信息嵌入到流形学习算法中去是值得研究的一个问题。提出了嵌入时间信息的Time-Embedding 2dlpp算法,并且基于TE-2dlpp算法生成了视频摘要,实验结果令人满意。其次,我们提出了视频流形特征的概念,并将视频流形特征应用于视频镜头变换和视频轨迹。视频流形特征为视频分析提供了新的手段。b.基于多类流形学习的数据可视化及分类当样本数据位于多个流形上时(多类数据),保局的流形学习方法(如局部线性嵌入)失效。考虑到实际数据中经常会出现多类情况,如多类的图像集,多镜头的视频等,即当高维数据分布在多个不连续的流形上时,提出一种新的基于LLE的多类流形学习算法,并将多流形学习算法应用于多类图像或视频的数据可视化。由于这些方法采用了非显性的映射,导致无法直接应用于新的测试数据,使得这些方法在分类上具有很大的局限性。本文提出了一种针对多类流形数据的分类方法,并取得了较好的实验效果。c.基于局部线性嵌入的半监督流形学习在许多实际的机器学习和数据挖掘应用中,尽管手边有大量的无标签数据,但通常只有少量的有标签数据可以使用。因此,为了自动地使用无标签数据来辅助监督学习,提出了基于LLE算法的半监督学习方法。算法的基本思想是在维数约简的过程中既要保持类内数据的近邻关系,又能通过邻域点预测未标签数据的类别信息。与其他的方法不同,我们的方法使用了一种改进的最小生成树κ-NN图。我们提出了双重权的概念,重构权用于发现低维嵌入,衍生权用于标签传播。应用于合成Scurve数据、多类数据和传导分类的实验都验证了算法的有效性。d.局部保持的流形学习统一框架局部保持的流形学习主要是通过建立局部模型刻画局部几何特性,然后在平均意义下整合对齐所有交叠的局部几何模型发现某种内在全局几何规律,最后通过全局低维坐标表示出来。分析研究了LLE、LE、LTSA等典型算法后,提出了一个保局的流形学习的统一框架,并证明了典型保局算法与框架之间的转换联系。