非线性维数约减的研究及其应用

来源 :天津大学 | 被引量 : 0次 | 上传用户:hjkl123lkjh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前人类社会日益深入到信息时代,在进行科学研究的过程中,不可避免地会遇到大量的高维数据,如全球气候模型、人类基因分布、文本聚类和文本分类中的词频等,所以经常会面临维数约减的问题, 维数约减的目的是找出隐藏在高维数据中的低维结构。对维数约减的研究是机器学习的重要主题,维数约减较中肯地把握了人类的归纳学习和抽象思维过程的形式特征。维数约减算法大致可以分为两类,一类是线性的方法:如主成分分析法(PCA)和经典多维尺度算法(CMDS),另一类是非线性的方法:如等距映射法(Isomap)、局域线性嵌入法(LLE)和自组织等距嵌入法(SIE)等。本文首先对几种维数约减算法进行了研究和分析。经典的维数约减算法,如PCA和CMDS,实现简单,可以确保发现处于高维向量空间的线性子空间上的数据集的真实几何结构。但是这类算法的线性本质使其无法揭示复杂的非线性流形。为此,许多非线性维数约减算法相继提出。Isomap是一种全局优化算法,该算法建立在经典多维尺度算法 CMDS基础之上,试图保持数据间内在的几何特性,即保持数据点之间的测地线距离;LLE是一种无监督的学习算法,揭示非线性流形的全局结构。LLE使用一种局域对称和线性重构的方法,将输入空间的点集映射为一个单一低维的全局坐标系,并保持点的邻域关系。SIE则是基于一种几何的观点:一个全局等距的嵌入必然是局域等距的,同样,适当选定一组局域等距约束条件,可以蕴含全局等距;SIE利用点集的距离分布作为等距约束条件,通过适当选取保持局域距离分布的局域等距映象,在概率意义上强迫出全局等距嵌入映象。为了客观评价各种非线性维数约减算法的重构质量,本文采用仿真数据和真实数据分别用各种维数约减算法进行重构。本文将非线性维数约减的方法引入文本分类,并验证了基于非线性维数约减的文本分类的可用性。仿真实验表明,对于无噪数据集,Isomap和SIE重构质量近似,优于LLE;对于含噪数据集,LLE和Isomap这样的全局非线性嵌入算法,由于噪声导致的伪自由度在整体上扭曲<WP=4>重构流形,导致重构质量的严重下降,而SIE可以有效屏蔽少数噪声点对于重构质量的影响,保持近似优化的重构质量;对于真实数据,对于不同的应用,各个算法的重构质量有很大差异。
其他文献
企业资源计划系统ERP(Enterprise Resource Planning)是制造企业信息化的有效手段,中国ERP推广应用所面临的问题之一是ERP软件缺乏适应性,特别是ERP车间生产计划系统的柔性问
合成孔径雷达(synthetic aperture radar, SAR)诞生于20世纪50年代,它具有全天候、全天时、多波段等成像特点,SAR图像较光学图像表现出其独特的优越性,星载、机载及无人机载合成
以手持设备、实时系统等为典型代表的嵌入式系统需要一个轻型、可灵活配置、非常友好的图形界面系统。 论文首先概述了嵌入式计算机系统及通用图形用户界面的发展情况,接着
伴随嵌入式技术的不断发展,嵌入式操作系统也在不断涌现。对于非实时领域,可以采用Linux和WinCe系统,对于实时领域,多采用VxWorks或开源的实时操作系统。目前开源实时内核的发展
近年来在以人体生物特征为验证依据的身份识别技术中,人脸识别因其具有直接、友好、方便、易于为用户接受等优点,成为其中较为热门的研究应用方向.同时人脸自动识别技术也极
随着社会的发展,尤其是进入21世纪,人们追求的已经不仅仅是物质生活的满足,而更多是精神生活的满足。信息技术的发展,带动了一大批新兴产业的发展。互联网的发展,极大地改变了人们
近年来,随着Internet的飞速发展,越来越多的研究机构、团体以及个人开始注意到网络,并通过它来发布信息、查找信息。尽管Internet上有海量的信息,人们还是常常感到不能够找到自己
随着信息技术的迅猛发展,分布式计算架构也在经历着变革,Peer-to-Peer技术就是其中一种很有发展前景的技术.在Peer-to-Peer架构中,传统的在客户端与服务器端或者中间层之间的
自动布线是计算机设计自动化的一个重要环节,也是计算机辅助设计的一个重要课题。随着计算机工业的飞速发展,各种器件的集成度越来越高,布线也越来越复杂,人工布线已经越来越
网格是一个正在迅速发展的研究领域,开放式网格服务体系结构(OGSA)是当前最新也是最重要的一种网格结构形式。其中,服务描述、服务注册、服务发现、服务发布和服务管理等模块