论文部分内容阅读
切片逆回归是一种经典的充分降维方法,目的是在不损失响应变量对解释变量条件分布信息的前提下,用协变量的少数几个线性组合代替原来的协变量,以此实现降维。但估计的线性组合往往会包含原始所有的协变量,使得起主要贡献作用的协变量难以被识别,结果也难以解释。尤其当协变量个数很大时,降维后再建立后续预测模型依旧比较复杂。本文将切片逆回归方法与弹性网结合,拟合了一种新的凸优化模型用于高维数据的降维。本文提出的模型可同时估计中心降维子空间并执行变量选择,模型的凸性质也能保证估计的最优解为全局最优。改进了线性交替方向乘子算法用于本文模型的求解,并且建立了估计子空间与真实子空间距离的上界。在诸如生物、医疗或交通等领域的研究中,数据通常是从多种模式中收集的。然而,使用多模态数据的一个特殊挑战即数据成块缺失。本文另外一个主要贡献是提供了一种解决成块缺失多模态数据的有效降维方法。将协方差矩阵拆分为几个特定矩阵的线性组合并基于一个二次损失函数得到协方差矩阵的最佳估计。将基于弹性网和切片逆回归拟合的凸优化模型应用于数据成块缺失的情形,实现了该类型数据的有效降维。数值模拟结果表明,不管数据有无成块缺失,本文提出的降维模型均能够在两种数据类型的高维环境中识别重要的协变量,并且相较于他人的模型更加稳健。