高维数据的低维流形结构研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:q157194179
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如果把人对外界的感知表示为高维空间中的点集,那么这些感知输入之间的统计相关性,在几何学上表现为数据点散布在低维光滑流形上,或在低维光滑流形附近。人能够从外界的刺激感知到这些固有的低维流形,研究和模拟人的这种感知能力,从有限高维样本数据中学习到潜在的低维流形结构,成为众多计算机科学家的研究目标。几何和拓扑的研究方法为有效处理高维样本数据提供了一条新的有效途径,对高维数据的低维流形结构的研究成为机器学习领域的一个研究热点。 本文以微分几何为数学基础,应用几何与拓扑的方法,对低维流形的学习理论、流形的嵌入特性、流形的构建算法以及流形在半监督学习中的应用等几个关键问题进行了深入的研究,取得了一定的研究成果,并经过充分的实验验证,为进一步的研究和应用奠定了基础。创造性的研究成果主要有: 1.从逆问题角度研究了无监督流形学习的假设前提,以及假设前提下解的存在性和表示形式,并给出流形学习的基本算法框架。对Isomap等无监督流形学习算法中的假设前提——光滑流形与低维参数空间之间等距映射的存在性进行了证明。通过定义一个非线性的正向算子,在无监督流形学习和逆问题之间建立了联系,并根据表示定理,得到无监督流形学习问题的解的一般表达形式。 2.根据Isomap算法对两个典型流形的比较实验结果,提出流形嵌入维数问题。从理论上区分了低维流形的固有维数与嵌入维数,给出了二者的关系。论证了如果数据空间存在环状流形,则数据的固有维数要小于嵌入维数。根据流形定向理论,提出一种环状流形发现算法。在多姿态三维对象的实验中验证了算法的有效性。 3.在极限意义下提出一种新的主曲线定义,并给出构建算法。定义建立在局部切空间基础之上,证明了新的主曲线不仅满足自相合特性,而且对于任意的开覆盖,主曲线唯一存在。根据新的定义,提出了一种主曲线的构建算法,并证明了算法的收敛性。多种数据集上的模拟实验结果表明,根据新的主曲线定义提出的算法能够有效地发现主曲线。 4.提出一种流形上正则化半监督分类算法——ReguSCoM。算法针对近邻图中没有考虑已知标记样本的类别信息,首先定义了反映成对标记关系的标记信息图,然后和表示固有几何分布的近邻图合并,得到修正的Laplacian算子,作为目标函数中的正则化项。通过利用已知标记样本重新定义图的Laplacian算子,对决策界进行调整和优化。ReguSCoM算法结合了有监督和无监督学习的优点,实验结果表明,该算法能够有效地利用未知标记和已知标记样本,具有较高的分类精度和召回率。
其他文献
Hough变换(CHT)是圆检测的重要方法之一。为了提高图像检测速度和满足准确性的要求,本文首先对利用圆斜率进行圆检测的Hough变换中存在的一些问题进行了分析,然后提出了一种利
中国经济的迅速发展,使企业外包业务的领域越来越广,介入程度越来越深,其中软件业成为了一个新的企业外包业务的战场,其中我国针对日本软件的外包公司发展最为迅速。软件企业
数据集成平台的作用是提供一个访问异构数据源的统一接口,使用户或处理数据的业务系统不必考虑数据模型的异构性、数据抽取、数据合成等问题。异构数据源集成问题是数据库领
随着科学技术的迅猛发展及信息化需求程度的日益加深,软件的生产规模日益增大,应用需求不断变化,软件工程得到很大的发展。软件设计的各种难题随着各种建模思想的提出而逐渐得到
教学离不开教师和学生的交互,语音交互则是最符合人类自然习惯的一种通信交互方式。语音交互以语音合成和语音识别为基础。语音合成是将文本文件转换成语音信息。语音识别是将
随着计算机网络技术的发展,特别是互联网技术的发展,网络的应用领域越来越广泛,现代远程教育就是建立在其上的典型应用。现代远程教育也称为网络教育是把网络视为教学的工具
健壮性图着色问题(RobustGraphColoringProblem-RGCP)是经典图着色问题的一种新的扩展,它在许多领域有广泛应用。 本论文提出了一个求解小规模数据RGCP的精确解算法。通过
利用人体特征——指纹进行身份识别的技术日益成熟,应用越来越广泛。本文针对武汉警官职业学院的具体情况,设计并实现了基于指纹识别技术的考勤系统。 本文详细介绍了指纹数
随着智能手机和平板电脑的普及,推送技术在移动终端领域得到了快速发展。目前该技术需要将大量的信息推送给移动设备,在区分服务信息的问题上,可能会增加系统的推送时间;同时
在国民经济许多行业中,都会遇到板材分割问题。例如:金属制品、普通机械、专用设备、交通运输设备等制造行业的金属板材分割,家具制造业的胶合板分割,建筑和玻璃行业的平板玻