论文部分内容阅读
随着数据采集和存储技术的进步,金融、医学、网络等领域每天都产生着大量的数据,如何设计快速有效的算法从中挖掘出有价值的信息,成为大数据处理中迫切需要解决的问题.稀疏学习是处理大数据的重要方法.针对数据量较多的大样本数据,已有的基于核学习的算法需要利用所有样本计算核矩阵,且模型的解缺乏稀疏性,这无疑导致较大的内存和时间消耗,使算法难以处理大数据.对于高维大数据,特征中存在着冗余特征,已有的基于随机投影的特征稀疏方法快速且有效,然而由于稀疏随机投影矩阵生成方式的完全随机性,导致矩阵中非零元在列中分布不均,进而导致降维后更多的数据信息丢失.此外,机器学习中存在着很多非凸优化模型,如何为模型设计高效的算法来快速寻找到“全局”最优解是另一个值得研究的课题.本文围绕大数据的稀疏学习算法和机器学习中的非凸优化问题进行研究,主要包括下面几部分内容:(1)为了解决鲁棒最小二乘支持向量机(R-LSSVM)的解不具有稀疏性,难以处理大数据的问题,提出了稀疏R-LSSVM算法(SR-LSSVM).首先从重新加权的角度解释了R-LSSVM具有鲁棒性的原因.然后,利用表示定理得到了基于原空间的R-LSSVM模型,新模型可能具有稀疏解,并利用核矩阵的低秩近似,设计出了一种收敛的稀疏R-LSSVM算法(SR-LSSVM)来得到基于原空间的R-LSSVM模型的稀疏解.新算法的计算复杂度低于已有算法,能高效训练大数据.实验结果表明:与已有算法相比,SR-LSSVM能用更少的时间得到更高的准确率,在处理大数据方面效果显著.(2)为了解决核c-均值聚类算法需要计算全核矩阵,难以处理大数据聚类的问题,提出了基于不完全Cholesky分解的快速核c-均值聚类算法.该算法利用不完全Cholesky分解方法得到全核矩阵的近似矩阵,即一个低秩矩阵及其转置的乘积,然后将该低秩矩阵转置的列向量做为输入数据运行线性c-均值聚类算法.理论分析表明当核矩阵的特征值指数下降时,新算法与标准核c-均值算法得到的聚类结果之间的差异指数阶下降.实验验证了新算法的性能与标准核c-均值聚类算法相似,但新方法可以减少内存,加快运行速度,适合处理大规模数据集.(3)为了快速求解核模糊c-均值聚类模型(KFCM),基于凸函数的差算法(DCA)提出了三种KFCM求解算法.首先证明了在满足一定条件下KFCM模型可以进行DC分解,并提出两种基于DCA的求解算法.然后,为了提高第二种新算法的计算效率,采用了核矩阵的近似策略,避免了计算整个核矩阵,且使得聚类中心的计算是随机选定的几个样本的线性组合而不是全部样本.最后,采用了经典KFCM算法和新算法交替运行若干次的策略,为新算法寻找初始点.实验结果表明新算法在聚类精度,运行时间和迭代次数方面均优于传统的KFCM算法.(4)为了求解一类具有多个局部最优点的非凸优化问题的“全局”最优解,基于逐步优化算法(GOA)和随机方差缩减梯度(SVRG)方法,提出了SVRG-GOA算法.首先,设计了一种更接近原函数的新光滑化方法将原始非凸函数光滑化成一系列的局部强凸函数.然后,采用SVRG方法来迭代地求解这些局部强凸函数,得到一类非凸优化问题的“全局”最优解.理论上证明了新算法中更新规则的方差是有界的,算法是收敛的,且迭代复杂度低于已有算法.接下来,对于凸函数部分的梯度难以求解的问题,基于近端SVRG(PSVRG)方法,提出了PSVRG-GOA算法,此算法避免了求解凸函数部分的梯度,算法是收敛的且具有与SVRG-GOA相同的迭代复杂度.此外,为了防止算法过早限制在小范围内搜索而导致无法寻找到全局最优点的问题,为算法设置了较大的收缩因子;为进一步加快收敛速度,设置了相对较大的固定的投影步长;为进一步缩减方差,采用了小批量技巧;最后,将算法推广到了最小化有限个非凸函数的和的优化问题.实验结果表明新算法比已有算法能更快地收敛到非凸问题的“全局”最优解.(5)为了对高维数据进行降维,提高后续机器学习算法的效率,提出了稳定稀疏子空间嵌入算法(S-SSE).新算法基于统计学中的无放回抽样的思想,使得生成的稀疏矩阵中,每列只有一个非零元,且非零元均匀分布于各行.理论分析表明构造的S-SSE矩阵比已有的矩阵更稳定,且新方法可达到较好的欧氏距离近似精度.克服了现有稀疏随机投影矩阵中非零元行标的完全随机选取而导致的矩阵的行之间的非零元分布不均,矩阵变化较大等缺陷.实验证实了理论结果,并显示了新方法与现有算法相比的优越性.