论文部分内容阅读
互联网技术的飞速发展开启了大数据时代。稀疏学习和低秩学习是重要的大规模机器学习方法,在许多领域得到了广泛应用,如计算机视觉、推荐系统、生物信息学等等。因此,面向互联网大数据的稀疏学习模型和低秩学习模型研究已经成为重要的课题,围绕这一主题,本文开展了以下研究工作:(1)基于筛选的多分类支持向量机加速算法:多分类稀疏支持向量机的训练是非常具有挑战性的研究问题,特别是当数据量和类别数很大时。基于其双重稀疏性和我们前期的二分类工作,我们提出了基于筛选的多分类稀疏支持向量机训练加速算法。我们的筛选方法是静态的,复合的,安全的:只需要在模型求解前运行一次就可以同时检测出大部分与最优解无关的特征变量和样本变量,缩小待求解优化问题的规模,达到提高训练效率的目的,同时不会损失模型预测精度。我们在人工合成数据集和真实应用数据集上进行了实验验证,结果表明我们的算法在模型训练效率上能取得1-2个数量级的提升。(2)基于截断核范数的在线鲁棒性主成分分析算法:传统鲁棒性主成分分析内存消耗大且无法处理流式数据。我们基于截断核范数提出了一种新的在线鲁棒性主成分分析算法。具体地,我们采用截断核范数作为矩阵秩函数的精确且鲁棒的非凸估计。我们发现了截断核范数的分解表达形式,由此可以对所得到的目标函数逐样本进行分解,进而设计了一种交替迭代优化框架以在线学习的方式求解模型。实验结果证实了我们的算法能从数据流中学习精确的低维子空间。(3)基于对称秩-1投影的单遍历稀疏主成分子空间学习方法:由于结合了稀疏性和低秩性,稀疏主成分子空间学习能得到具有良好解释性的低维子空间。我们研究了一种极端压缩感知方法即对称秩-1投影下的稀疏主成分子空间学习问题。在该观测方法下我们只能得到数据样本的一维投影幅值信息,因此,该问题具有很强的挑战性。我们提出了 一种单遍历的对称秩-1投影稀疏主成分子空间学习算法,能够以小批量迭代的方式在单次遍历数据后学习得到稀疏主成分子空间。我们的理论分析表明,在适当条件下,我们的算法能收敛到全局最优解。