基于全局统计与局部几何性质的数据降维算法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:Tiki0127
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在机器学习和数据挖掘等领域的许多实际问题中,如人脸识别,数字图像识别和数据可视化等,都需要面临高维数据的分析和处理。高维数据不仅会增加算法的计算负担,而且由于包含大量的冗余信息会掩盖数据的内在真实结构,给学习和分析任务带来很大的困难。数据降维技术是解决这一问题的有效手段,它不仅可以挖掘出数据的本质结构,而且能够以较少的计算代价帮助完成既定的学习任务。因此,针对数据降维技术的研究一直以来都是相关领域研究的重点课题。本论文重点研究针对高维数据的降维理论与方法以及在人脸识别领域中的具体应用。论文的主要研究内容和创新成果如下:1.从基于全局统计和基于局部几何性质的角度总结了已有数据降维算法的各自特点和优势,分析了各种算法的本质和内在联系。2.经典的PCA和KPCA算法都是在最小平方意义下进行建模的,其求解缺乏足够的稳健性。数据中即使掺杂了少量的离群样本也会使得它们求解的主分量方向产生很大偏倚。本文针对这一问题提出了一种稳健的非线性降维算法IRobust KPCA。该算法通过隐式的方式辨别并抑制数据中的离群样本,能够学习出准确的非线性子空间。由于采用了迭代的方式更新计算,算法还具有潜在的增量学习的优势。与标准KPCA算法的对比实验结果表明了该算法的有效性和稳健性。3.基于局部保持的思想,提出了一种针对高维数据的流形学习和模式分类的监督降维算法SMDA。经典的LDA算法仅考虑了样本的全局统计信息,不适用于非线性分布的数据。而基于局部几何性质的流形学习算法在解释数据的内在结构方面具有明显的优势。因此,本文基于局部分析的思想提出了SMDA算法。该算法试图在保持数据局部性质的同时最大化各类别之间的间隔,能够获得良好的判别性能。并且由于采用了优化的邻域选择机制,SMDA能够避免已有方法在刻画数据局部几何结构时所面临的一些问题。在Yale和UMIST人脸数据库上的实验结果表明了该算法的有效性以及相对于主流的PCA、LDA、LPP和MFA算法的优越性。4.基于流形正则化的思想,提出了一种可用于多类问题半监督学习算法MLapRLS。MLapRLS算法采用多变量回归模型用于分类问题,并且构建了所有样本的近邻图来估计整个数据空间的几何结构,作为回归目标的正则化项。在该算法中,无标签样本的作用就是协助估计数据空间的局部几何结构,帮助获得更为有效的判别向量。在Extended YaleB和PIE人脸数据库上的实验结果表明了该算法的有效性。
其他文献
美国著名作家杰克&#183;伦敦,在他的代表作<马丁&#183;伊登>一书中描写了主人公马丁在开始写作时,稿件接连被退了回来.但是,他凭着自己的热情和毅力,经过了顽强的努力,终于获
居家生活中哪些小生物是你的健康隐患?暖湿气流带来的充沛雨量,再加上温暖的气温,滋润的环境,让休息了一个冬天的虫虫家族又开始蠢蠢欲动,飞进你的窗子.
农村中小银行机构是地方金融机构中的主要组成部分,对支持县域实体经济和满足三农、小微企业融资需求具有重要作用。但长期以来,农村中小银行(农商行、农合行、农村信用社和村镇银行)过度依赖传统存贷业务,存贷利率管制创造了稳定的息差,使得农村中小银行靠单纯做大体量就可以增加盈利,导致了农村银行机构长期粗放式经营,缺乏业务精细化和管理创新,扭曲了市场对资源优化配置机制。随着社会主义市场经济的发展,我国利率市场
<正>重庆农商行大足支行于2008年10月23日召开了首届青年员工座谈会,支行领导与35岁以下、具备大专以上学历或助理级以上职称条件的70名青年员工共同参加了座谈。会议以采用
<正> 目前,世界各国在各种工业及民用建筑中广泛采用了泵送混凝土施工方法,我国近几年亦开始逐步推广泵送混凝土技术。由于预拌混凝土是宾厄姆塑性流体,变动因素多,所以是属
<正> 一提起飞碟,人们常常把它与神秘的外星人联系在一起。但随着科学技术的迅猛发展,明天,人们将乘坐飞碟去周游世界。现在许多发达国家的科学家正在研制属于人类自己的UFO
皮带运输机是建筑工地常用的运输机械,滚筒是皮带运输机的重要部件之一,滚筒转动时阻力的大小决定了皮带机能耗的大小,滚筒运行状态的好坏对皮带的磨损亦有很大的影响,据文献,滚筒
医学是一种社会历史现象,它在一定的社会历史条件下产生,并且受到各种社会文化条件的制约和影响。中医学正是在祖国传统文化的影响下产生和发展起来的医学体系。二千年来,它为中
1.车让牛先行。在印度的公路上行车,如遇到牛在前方走,那么车辆只能在其后行驶;倘若牛躺在公路中间,车辆就得绕道行驶。因为牛在印度被奉为神明,神圣不可侵犯。
以504名大学生为被试,采用中文版接纳行动问卷(第2版)、中文版认知融合问卷、手机成瘾倾向量表和青少年社会支持量表进行测量,采用偏差校正的Bootstrap法和潜变量结构方程模