论文部分内容阅读
如果把人对外界的感知表示为高维空间中的点集,那么这些感知输入之间的统计相关性,在几何学上表现为数据点散布在低维光滑流形上,或在低维光滑流形附近。人能够从外界的刺激感知到这些固有的低维流形,研究和模拟人的这种感知能力,从有限高维样本数据中学习到潜在的低维流形结构,成为众多计算机科学家的研究目标。几何和拓扑的研究方法为有效处理高维样本数据提供了一条新的有效途径,对高维数据的低维流形结构的研究成为机器学习领域的一个研究热点。
本文以微分几何为数学基础,应用几何与拓扑的方法,对低维流形的学习理论、流形的嵌入特性、流形的构建算法以及流形在半监督学习中的应用等几个关键问题进行了深入的研究,取得了一定的研究成果,并经过充分的实验验证,为进一步的研究和应用奠定了基础。创造性的研究成果主要有:
1.从逆问题角度研究了无监督流形学习的假设前提,以及假设前提下解的存在性和表示形式,并给出流形学习的基本算法框架。对Isomap等无监督流形学习算法中的假设前提——光滑流形与低维参数空间之间等距映射的存在性进行了证明。通过定义一个非线性的正向算子,在无监督流形学习和逆问题之间建立了联系,并根据表示定理,得到无监督流形学习问题的解的一般表达形式。
2.根据Isomap算法对两个典型流形的比较实验结果,提出流形嵌入维数问题。从理论上区分了低维流形的固有维数与嵌入维数,给出了二者的关系。论证了如果数据空间存在环状流形,则数据的固有维数要小于嵌入维数。根据流形定向理论,提出一种环状流形发现算法。在多姿态三维对象的实验中验证了算法的有效性。
3.在极限意义下提出一种新的主曲线定义,并给出构建算法。定义建立在局部切空间基础之上,证明了新的主曲线不仅满足自相合特性,而且对于任意的开覆盖,主曲线唯一存在。根据新的定义,提出了一种主曲线的构建算法,并证明了算法的收敛性。多种数据集上的模拟实验结果表明,根据新的主曲线定义提出的算法能够有效地发现主曲线。
4.提出一种流形上正则化半监督分类算法——ReguSCoM。算法针对近邻图中没有考虑已知标记样本的类别信息,首先定义了反映成对标记关系的标记信息图,然后和表示固有几何分布的近邻图合并,得到修正的Laplacian算子,作为目标函数中的正则化项。通过利用已知标记样本重新定义图的Laplacian算子,对决策界进行调整和优化。ReguSCoM算法结合了有监督和无监督学习的优点,实验结果表明,该算法能够有效地利用未知标记和已知标记样本,具有较高的分类精度和召回率。