机器学习中的稀疏算法和非凸优化问题研究

来源 :西安电子科技大学 | 被引量 : 1次 | 上传用户:xuxiaoxiu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据采集和存储技术的进步,金融、医学、网络等领域每天都产生着大量的数据,如何设计快速有效的算法从中挖掘出有价值的信息,成为大数据处理中迫切需要解决的问题.稀疏学习是处理大数据的重要方法.针对数据量较多的大样本数据,已有的基于核学习的算法需要利用所有样本计算核矩阵,且模型的解缺乏稀疏性,这无疑导致较大的内存和时间消耗,使算法难以处理大数据.对于高维大数据,特征中存在着冗余特征,已有的基于随机投影的特征稀疏方法快速且有效,然而由于稀疏随机投影矩阵生成方式的完全随机性,导致矩阵中非零元在列中分布不均,进而导致降维后更多的数据信息丢失.此外,机器学习中存在着很多非凸优化模型,如何为模型设计高效的算法来快速寻找到“全局”最优解是另一个值得研究的课题.本文围绕大数据的稀疏学习算法和机器学习中的非凸优化问题进行研究,主要包括下面几部分内容:(1)为了解决鲁棒最小二乘支持向量机(R-LSSVM)的解不具有稀疏性,难以处理大数据的问题,提出了稀疏R-LSSVM算法(SR-LSSVM).首先从重新加权的角度解释了R-LSSVM具有鲁棒性的原因.然后,利用表示定理得到了基于原空间的R-LSSVM模型,新模型可能具有稀疏解,并利用核矩阵的低秩近似,设计出了一种收敛的稀疏R-LSSVM算法(SR-LSSVM)来得到基于原空间的R-LSSVM模型的稀疏解.新算法的计算复杂度低于已有算法,能高效训练大数据.实验结果表明:与已有算法相比,SR-LSSVM能用更少的时间得到更高的准确率,在处理大数据方面效果显著.(2)为了解决核c-均值聚类算法需要计算全核矩阵,难以处理大数据聚类的问题,提出了基于不完全Cholesky分解的快速核c-均值聚类算法.该算法利用不完全Cholesky分解方法得到全核矩阵的近似矩阵,即一个低秩矩阵及其转置的乘积,然后将该低秩矩阵转置的列向量做为输入数据运行线性c-均值聚类算法.理论分析表明当核矩阵的特征值指数下降时,新算法与标准核c-均值算法得到的聚类结果之间的差异指数阶下降.实验验证了新算法的性能与标准核c-均值聚类算法相似,但新方法可以减少内存,加快运行速度,适合处理大规模数据集.(3)为了快速求解核模糊c-均值聚类模型(KFCM),基于凸函数的差算法(DCA)提出了三种KFCM求解算法.首先证明了在满足一定条件下KFCM模型可以进行DC分解,并提出两种基于DCA的求解算法.然后,为了提高第二种新算法的计算效率,采用了核矩阵的近似策略,避免了计算整个核矩阵,且使得聚类中心的计算是随机选定的几个样本的线性组合而不是全部样本.最后,采用了经典KFCM算法和新算法交替运行若干次的策略,为新算法寻找初始点.实验结果表明新算法在聚类精度,运行时间和迭代次数方面均优于传统的KFCM算法.(4)为了求解一类具有多个局部最优点的非凸优化问题的“全局”最优解,基于逐步优化算法(GOA)和随机方差缩减梯度(SVRG)方法,提出了SVRG-GOA算法.首先,设计了一种更接近原函数的新光滑化方法将原始非凸函数光滑化成一系列的局部强凸函数.然后,采用SVRG方法来迭代地求解这些局部强凸函数,得到一类非凸优化问题的“全局”最优解.理论上证明了新算法中更新规则的方差是有界的,算法是收敛的,且迭代复杂度低于已有算法.接下来,对于凸函数部分的梯度难以求解的问题,基于近端SVRG(PSVRG)方法,提出了PSVRG-GOA算法,此算法避免了求解凸函数部分的梯度,算法是收敛的且具有与SVRG-GOA相同的迭代复杂度.此外,为了防止算法过早限制在小范围内搜索而导致无法寻找到全局最优点的问题,为算法设置了较大的收缩因子;为进一步加快收敛速度,设置了相对较大的固定的投影步长;为进一步缩减方差,采用了小批量技巧;最后,将算法推广到了最小化有限个非凸函数的和的优化问题.实验结果表明新算法比已有算法能更快地收敛到非凸问题的“全局”最优解.(5)为了对高维数据进行降维,提高后续机器学习算法的效率,提出了稳定稀疏子空间嵌入算法(S-SSE).新算法基于统计学中的无放回抽样的思想,使得生成的稀疏矩阵中,每列只有一个非零元,且非零元均匀分布于各行.理论分析表明构造的S-SSE矩阵比已有的矩阵更稳定,且新方法可达到较好的欧氏距离近似精度.克服了现有稀疏随机投影矩阵中非零元行标的完全随机选取而导致的矩阵的行之间的非零元分布不均,矩阵变化较大等缺陷.实验证实了理论结果,并显示了新方法与现有算法相比的优越性.
其他文献
为了尽可能找到多模函数优化问题的全部最优解,提出了一种免疫文化基因算法。采用危险信号自适应引导免疫克隆、变异和选择过程,并采用Baldwin学习机制作为局部搜索策略,增强
目的探讨低聚原花青素及银杏黄酮抗氧化、清除体内自由基和延缓衰老的动物学效应.方法根据受试物含量的多少将老龄昆明种小鼠分为低、中、高三个剂量组,一个老龄对照组和一个
这篇文章是讨论如何克服马克思主义理论萧条的一系列文章中的一篇。作者坚决、果敢、不妥协的态度引起《世界马克思主义评论》委员会内部强列反响,热烈支持者有之,坚决反对者
对于压力增量形式的投影方法,在非交错网格上,仅仅采用近似投影过程,通常不足以抑制压力场的数值振荡.本文通过选取合适的投影变量,构造了一种可以在非交错网格上避免压力振
作为首要的信息载体,图像在人们的生活和工作中显得日益重要。但是在图像生成和传递过程中,各种因素均可能导致得到的图像退化,达不到预期的效果,严重的甚至影响正常使用。图
历史性的文化传统和地域性的文化体系是文化存在形式的两个维度,本文重点从时间角度来剖析承载着社会观念的文化事象之一的中国合唱艺术百年来反映出的文化、制度、社会发展
<正>我国是养猪大国,养猪业历史悠久。改革开放以来,生猪产业发展对增加农民收入,满足城乡居民畜产品需求做出了巨大贡献,是农村经济的重要支柱产业和农民增收的重要途径,在
在教学工作中,我们经常会要求学生记住很多内容,尤其是到了小学高年级,随着思维逻辑的不断增强,要让学生在不断的记忆中发展着自己的思维水平。记忆能力是掌握基础知识,形成
本文主要依据清代安徽方志的记载,对清代皖江圩田的类型与水利的规模、特点和修筑方式进行论述。 This paper mainly based on the records of Anhui local chronicles in Q
随着海上风电场往远海发展,海上升压变电站成为远海海上风电场的必须设置。该文以宁德霞浦海上风电场B区项目300 MW海上风电场为例,根据工程规模及离岸距离,设计推荐采用220