维数约简中的若干问题

来源 :复旦大学 | 被引量 : 10次 | 上传用户:apworld
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
维数约简是机器学习中的重要问题,本文着重介绍了该领域中四个问题的研究成果:流形学习作为非监督、非线性降维方法曾一度广为关注,如何对多样的流形学习算法进行合理的分类与评估一直是难以解决的问题。我们提出了一个基于算法设计思想的分类方法将常见的算法分为保距映射、图嵌入与统计方法三类,我们分别讨论了每类方法共同的优点以及不足;之后我们分几个方面对这些算法进行了评估:我们仔细的分析了常见算法的复杂性;讨论了谱与维数的关系;分析了噪声对每类方法产生的影响;解释了参数空间存在空洞时对算法的影响;使用邻域保持率分析了算法能否保持流形拓扑结构;提出了使用放大因子、主延展方向以及一些定量准则用于分析流形学习算法更细致的特性。作为这些分析的一个简单应用,我们针对人脸识别问题,从诸多算法中选择了较合适的流形学习算法进行降维,并获得了较传统线性降维算法更好的识别率。图嵌入算法是流形学习的一个重要的分支(见第2章),它的参数化(包括线性化和核化两个过程)为我们提供了一个完整的降维框架。核化产生了一个计算代价为O(N3)的问题,这阻碍了该方法在大规模数据上的应用。我们提出使用AP初始化k均值获得代表元进行近似的算法,由于我们的方法能够更好的控制量化误差,在相同代表元个数时能得到对Gram矩阵更好的逼近;我们分析了对不同部分谱逼近的程度,并通过实验说明不同应用需要对不同谱进行逼近。我们还给出了对映射逼近的误差界,并证明该误差界一样被量化误差所控制;相对于对Gram矩阵的逼近,这种方式在PKLR与图嵌入算法上有着更直观的解释,我们的实验也表明图嵌入上该方法获得的解更好且参数更少。我们前期的工作比较了一些线性化图嵌入算法的特点;利用近似算法我们在大规模问题上比较了这些核化图嵌入算法,我们得出了一些有意思的结论,如:求最小特征值的图嵌入算法不适合使用谱下降较快的核函数进行核化;局部性的模型可以通过局部性的核函数得到类似的效果。.我们利用基于核方法构造的独立性准则设计了一种监督维数约简算法,分析表明它可以做为充分维数约简算法如KDR的一种近似。但是相对于KDR每次迭代需要O(N3)的时间复杂度,我们的算法仅需要O(N2)与一次V阶矩阵乘法的时间,具有更低的计算代价。我们在一些模拟数据上讨论了我们的方法可能存在的问题,但是使用真实数据的多数实验中,我们的方法可以给出与KDR类似的结果。我们还讨论了使用HSIC统计量确定SDR投影空间维数的上界的方法,这个问题在多数文献中都没有给出较合理的解决方案。我们进一步讨论了这类算法与图嵌入算法之间的联系,发现图嵌入算法可以为其提供较好的初始值,以此减少随机搜索的次数。为了能让这类模型能够处理非监督信息,我们为原模型添加了Laplace光滑子,通过实验发现在较低维投影时能够获得较仅利用监督信息的模型更好的结果。最后我们提出了使用这类算法处理非监督降维与CCA问题的方法作为今后一个潜在的研究方向。在处理一些实际问题的时候,数据中存在的序关系往往十分重要,因为这些关系揭示了数据在潜在的流形上的分布,在我们的实验中也发现保持序关系能够改善分类器的泛化能力。我们第一次将这类问题从传统分类问题中分离出来,称之为趋势学习。我们比较了趋势学习与其他传统学习问题的异同点,如分类是对分界面建模,而趋势学习是对状态之间的迁移过程建模。通过对传统线性模型SVM与PKLR的仔细比较,我们认为后者能更方便地用于对趋势学习建模。这样我们获得了一个DAG正则化的PKLR模型,由于其约束非凸,我们给出了一个使用CCCP求解的算法。为了验证我们想法的合理性,我们在两组模拟数据和两组真实数据上进行了实验,结果说明在标注样本较少的时候,通过DAG正则化生成的趋势学习模型具有较监督学习与半监督学习模型更好的泛化能力。
其他文献
介绍了高纯气体中容积无缝气瓶的结构和使用特点,探讨了此类气瓶主要失效模式以及目前采用的检验技术,并比较各种检验技术的有效性。分析表明,目前国内对普通工业气体气瓶的
本文首先从小微企业融资难的痛点出发,通过对统计数据及当前宏观经济形势的分析,得出小微企业融资存在传统银行贷款可获得性低和其他融资渠道融资成本高两大难题。然后通过大
本论文旨在尝试让康斯坦丁·布朗库西(当今雕塑界最杰出的代表)的艺术与哲学结合更加显而易见。我们根据雕塑形式的相关性还是成功地找到了其思想及处理相关争议的能力所体现
期刊
小学语文综合实践活动是培养小学生的语文素养,提升小学生的实践能力的一种有效的教学活动形式。教师可从深挖实践活动的资源、指导实践活动的方式、捕捉实践活动的机会三个
文章基于现代糖尿病生理病理共识、自身治疗糖尿病的临床实践以及中医典籍历代医家的论述,结合国内外学者的实验和临床研究,探讨了饮食于糖尿病发生与防治的关系及限制谷类主
目的:建立鉴定山西省酸枣仁药材的指纹图谱。方法:选用Kromasil 100-5-C18(4.6 mm×250 mm,5μm)色谱柱,流动相乙腈-0.05%磷酸水溶液,梯度洗脱,流速1 mL/min,柱温35℃,DAD检测
本文认为,"VP"名词化的实质是陈述转化为指称,其根本机制不在于有无形式标记,这一点可以通过有些"VP"不要任何形式标记而实现名词化和转指这一事实得到证明。无论是有形式标
《城南旧事》是一曲哀婉的人生骊歌,作家舒缓而又不无忧伤地叙述了亲友的离开、童年岁月的逝去、与故乡北平的告别,共同凸现了"别离"这一主题,作品在淡淡的忧伤中弥散着一种
<正> 动词前加"一"形成"一+动词",连用两个"一+动词"构成"一V—V"格式,这一格式有特殊的语法意义和表述作用。1.根据内部结构,"一V—V"格式可以分为三种:第一种,"一V—V"为并