论文部分内容阅读
科学的进步,尤其是信息产业的发展,把我们带入了一个崭新的信息时代。在信息时代的科学研究中,不可避免地会遇到大量的高维数据,特别是图像数据。在实际应用中,用图像数据来表示的观测点可以模拟成可能带有噪声的低维非线性流形上的样本点或近似这些样本点。因此,流形学习已成为数据挖掘的一个重要手段,目的是找出图像高维空间中隐藏的低维结构或一些有益的性质。有一些因素影响着流形学习方法的效率。本征维数估计方法研究是高维图像数据处理领域的重要研究方向,如何准确地寻求本征维数可以帮助人们认识图像数据的本征结构,对于高维图像数据的维数约简以及其它的后续处理都具有重要的指导意义。虽然先前的研究指出了不同流形学习之间的联系,但是在核框架下来看不同流形学习之间的联系却是一个新的研究方向。黎曼正则坐标包含了流形中指定点到邻近点的方向和距离信息,如何将这种源于微分几何的技术应用到流形学习中也是值得研究的课题之一。对于这些问题,本文给出了比较完善的解答。本文的主要贡献如下:1.探讨了一种新的图像数据的本征维数估计算法。在没有流形几何或拓扑的先验知识的条件下,算法的关键在于如何构建一个基于流形切丛的近似单纯复形。这种算法的一个重要性质就是其计算复杂度只跟流形维数相关,而不是嵌入空间的维数相关。实验结果说明了本文算法在平面、空间上重建曲线、表面以及人脸图像本征维数估计中都取得了较好的效果,也分析了一个失败的情况。2.探讨了一种新的鲁棒流形学习方法。近年来提出的概率子空间混合模型对于图像流形学习是一种非常有用的方法,其对全局映射的缺乏可以由最近发展起来的基于局部线性嵌入,也称为局部线性坐标的方法来改善。然而,在很多存在野值点的实际应用中,这种方法缺乏必要的鲁棒性。这里给出了一种结合概率子空间混合模型的t分布的鲁棒混合模型。实验结果表明这种鲁棒子空间混合模型在图像数据集的密度估计和分类中具有非常好的优势。通过在嵌入步骤中引入重新定义的加权,很好的解决了局部嵌入坐标中的鲁棒性问题。3.首先,我们从核技术观点出发,对几种众所周知的流形维数约简算法进行了说明。Isomap,图Laplacian特征映射和局部线性嵌入(LLE)都利用一个局部邻域信息来构建流形的全局嵌入,可以看作基于特别构造的格莱姆矩阵的KPCA,揭示了三种算法之间的相似之处和不同之处。最后,Isomap是一个广泛使用的低维嵌入方法,是加权图的几何距离跟经典尺度分析(测度多尺度分析)相结合。我们将注意力集中在Isomap中没有考虑到的两个关键问题:(1)泛化能力;(2)拓扑稳定性。我们探讨了一种具备以上两种性质的鲁棒核Isomap方法,将Isomap和Mercer核机器联系起起来。通过KPCA,泛化能力也就自然呈现出来。对于拓扑稳定性,观察图中的网络流,我们探讨了一种消除临界野值点的方法。本文方法的泛化能力和稳定性在(图像)数据集的实验结果中也得到了证实。4.探讨了一种基于黎曼正则坐标的快速流形学习方法。这种坐标系统可以看成Euclidean空间的笛卡尔坐标的一种泛化。借助一些来自微分几何的基本概念以及使用Diikstra算法用于计算图最短路径,可以实现高维数据的维数约简。我们希望本文方法开启一种新的图像处理的分析方法,其中,坐标系统是从高维实验数据学习获得,而不是事先采用定义好的模型。