论文部分内容阅读
随着大数据时代的到来,我们面临的数据越来越复杂.矩阵形式的数据普遍存在于科学研究和实际应用领域中,如基因表达分析、脑神经网络、金融、经济、机器学习与人工智能、医学影像疾病诊疗、风险管理等.目前对于这些数据的处理,大多基于同方差假设并利用最小二乘模型进行统计分析.事实上,很多数据不是同方差的.此时最小二乘模型不能很好地解释这些数据.在这种情况下,很自然地我们要考虑稳健方法,如分位数回归.但是在实际问题中,我们不清楚数据是否重尾或含有离群点.这时,考虑使用Huber函数作为损失函数是一个很好的选择.Huber函数是二次函数和绝对值函数的组合,是绝对值函数的光滑化函数.从优化角度看,光滑化更有利于优化算法的设计.此外,数据中还存在结构特征,如元素稀疏、预测变量稀疏、低秩、多重共线性等.本文通过正则化技术,建立Huber矩阵回归模型.然后,我们研究了模型的统计性质并设计了模型的求解算法.最后,我们利用这些模型对模拟数据和真实数据进行了分析.
对于低秩的重尾矩阵数据,我们建立了核范数正则化Huber矩阵回归模型.借助于核范数的可分解性,Huber损失函数的局部限制强凸性和近似低秩性等概念,给出了模型估计的风险上界.然后设计了迭代复杂度为O(√Lf/ε)的加速邻近梯度算法mAPG来估计模型的系数矩阵.最后,我们使用此模型对模拟数据和Norwegian纸张质量数据进行分析.结果表明,核范数正则化Huber矩阵回归模型能给出更好的结果.
对于存在多重共线性且低秩的重尾矩阵数据,我们建立了低秩弹性网正则化Huber矩阵回归模型,并从理论上证明了此模型的组性质.在关于噪声和设计矩阵的一些条件下,建立了其解的风险上界.在第二章提出的mAPG算法的基础上,考虑了连续技术和截断技术来进一步加速mAPG算法.通过分析模拟数据和拟南芥数据,我们发现,低秩弹性网正则化Huber矩阵回归模型能很好地处理重尾数据中的共线性问题.
对于存在多重共线性且预测变量稀疏的重尾矩阵数据,我们建立了行稀疏弹性网弹性网正则化Huber矩阵回归模型,并在理论上证明了其组性质.在一些假设条件下,我们建立了其风险上界,此外,设计了迭代复杂度为O(√Lf/ε)的加速邻近次梯度算法来求解此模型.通过进行模拟试验和分析聚乙烯数据集,我们发现,行稀疏弹性网正则化Huber矩阵回归模型不仅能很好地处理重尾数据中的共线性问题,还可以选择出重要的预测变量.
总之,我们针对具有不同结构特征的矩阵回归问题,提出了正则化Huber矩阵回归模型,研究了模型的统计性质,设计了有效的优化算法并给出了收敛性分析,通过数值实验验证了模型的有效性和理论性质.
对于低秩的重尾矩阵数据,我们建立了核范数正则化Huber矩阵回归模型.借助于核范数的可分解性,Huber损失函数的局部限制强凸性和近似低秩性等概念,给出了模型估计的风险上界.然后设计了迭代复杂度为O(√Lf/ε)的加速邻近梯度算法mAPG来估计模型的系数矩阵.最后,我们使用此模型对模拟数据和Norwegian纸张质量数据进行分析.结果表明,核范数正则化Huber矩阵回归模型能给出更好的结果.
对于存在多重共线性且低秩的重尾矩阵数据,我们建立了低秩弹性网正则化Huber矩阵回归模型,并从理论上证明了此模型的组性质.在关于噪声和设计矩阵的一些条件下,建立了其解的风险上界.在第二章提出的mAPG算法的基础上,考虑了连续技术和截断技术来进一步加速mAPG算法.通过分析模拟数据和拟南芥数据,我们发现,低秩弹性网正则化Huber矩阵回归模型能很好地处理重尾数据中的共线性问题.
对于存在多重共线性且预测变量稀疏的重尾矩阵数据,我们建立了行稀疏弹性网弹性网正则化Huber矩阵回归模型,并在理论上证明了其组性质.在一些假设条件下,我们建立了其风险上界,此外,设计了迭代复杂度为O(√Lf/ε)的加速邻近次梯度算法来求解此模型.通过进行模拟试验和分析聚乙烯数据集,我们发现,行稀疏弹性网正则化Huber矩阵回归模型不仅能很好地处理重尾数据中的共线性问题,还可以选择出重要的预测变量.
总之,我们针对具有不同结构特征的矩阵回归问题,提出了正则化Huber矩阵回归模型,研究了模型的统计性质,设计了有效的优化算法并给出了收敛性分析,通过数值实验验证了模型的有效性和理论性质.