基于流形学习的特征提取方法及其应用研究

被引量 : 0次 | 上传用户:shmily2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
流形学习方法已经成为当前机器学习领域研究的一个热点。基于局部线性和全局非线性的假设,流形学习方法能有效地探测非线性数据的内部结构,并且具有保留这些结构的特点,因此流形学习方法是一种有效的数据可视化方法。然而,流形学习方法作为一种非线性特征提取方法,当面临数据分类的任务时,却暴露出诸多缺陷,例如小样本问题、样本外点学习问题、噪声敏感问题和数据可分性能差等问题。为了克服数据分类过程中流形学习方法的这些缺点,本文提出了几种基于流形学习的特征提取方法,并建立了一个广义的Fisher线性特征提取框架。全文的主要工作概括如下:(1)在应用流形学习算法进行特征提取之前一个很重要的任务就是对噪声数据进行预处理。本文提出了一种基于鲁棒主分量分析(RPCA)的去噪方法。首先通过鲁棒主分量分析和循环赋权最小均方(IRLS)算法对数据点赋权;然后由箱(BOX)统计方法对这些权值进行分析,以识别其中的噪声点和干净点;最后,对去掉噪声后的数据采用流形学习方法进行映射。(2)局部线形嵌入(LLE)算法是一种经典的流形学习算法,它通过保持近邻点之间的最小重构权值不变,将原始数据点投影到低维空间。LLE算法有一个特点,即近邻点间的最小重构误差是旋转、平移和比例不变的,利用平移和比例不变特性可以提高嵌入结果的判别能力。因此提出一种名为局部线性判别嵌入(LLDE)的新方法来提高LLE算法的分类能力,并且可以通过一种改进的最大边缘标准(MMMC)自动得到最佳的线性平移和比例变换。最后在人脸和基因表达数据上的实验结果证实了LLDE算法的有效性。(3)在实际应用中,数据分类问题可以看作是一个面向分类的多子流形学习问题。对于多子流形学习问题,提出了一种以保留数据的局部结构为约束条件,使子流形之间的差异最大为目标函数的模型,该模型被称为约束最大差异映射算法(CMVM)。CMVM是通过线性变换找到一个最佳子空间,使不同子流形数据更分散、同一流形数据更紧密。在人脸和手写体数字上的实验表明CMVM是一种有效的特征提取方法。(4)目前大多数线性特征提取方法,无论是传统的线性方法,还是对传统流形学习方法的线性近似,都有一个共同点,就是它们的目标函数可以表示成一种Fisher形式。基于这个共同点,本文提出了一种广义Fisher框架(GFF),其中类别信息和局部结构信息被集成在一起。在满足一定条件和正确参数设置情况下,大多数线性特征提取方法都可以看成广义Fisher框架的特例。实验结果验证了我们所提出方法的可行性和有效性。
其他文献
地铁对于人类的发展、城市的规划与建设、城市的经济建设有着极其重要的意义。它不止是传统中一个简单的交通工具和在功能上实现的空间,也不仅具有重大的经济意义,更重要的是
客户价值主张是企业市场中最流行的名词之一,但是能让客户产生共鸣的客户价值主张凤毛麟角,很多企业在制定客户价值主张时带有一定的片面性,只是从企业的角度列举自己将给客
温泉资源即地热资源,是一种可再生清洁能源矿产,同时,也是一种极具商业开发价值的可枯竭性旅游资源,是典型的公共资源。广东温泉资源丰富,温泉旅游的开发利用全国领先,大批高
2007年设置水分试验,通过不同生育时期控制不同的土壤含水量,研究了土壤水分对花生光合特性、植株生长动态、干物质积累、水分利用效率的影响。根据经典生长分析的原理和方法
经济的全球化带动了文化的全球化。文化以空前的速度和强度向外传播,特别是在文化交流中处于强势的文化。文化的全球化呈现单向性,体现了各国对权利的角逐。文化安全是国家安
非经营性国有资产在我国经济、政治和社会等各方面发挥着十分重要的作用,多年来我国各地方积极探索对非经营性国有资产的监管,并取得一定的成就和经验。然而,非经营性国有资
随着中国经济、社会和文化等各领域的迅猛发展,专业翻译工作者的市场需求量越来越大。翻译教学的重要性日益增长,2006年本科翻译专业及2007年翻译专业硕士的设立便可窥其一斑
琯溪蜜柚是福建省平和县著名的地方传统珍贵名果,2007年,全县种植面积占全国柚类的1/3强,年产量约63万吨,目前,琯溪蜜柚已成为平和县的经济支柱产业。而随着蜜柚产量的逐年提
随着科技的进步,飞速发展的信息技术对数学教育产生了巨大的影响。高中数学课程内容、数学教学、数学学习等方面都产生了深刻的变化。数学建模是利用数学的方式建立和研究模
口译作为热门职业的兴起和繁荣,对口译人员的素质和表现提出了更高的要求。随着“口译热”的出现,参加口译培训的人越来越多,可合格的口译人员数量永远不能满足市场的需求。