论文部分内容阅读
随着科技的不断发展,大数据时代已悄然来临。分布式存储是目前解决大数据存放问题的一种常用方法。对于分布式的大样本数据,以往传统的中心化估计算法,因需要事先将所有分布式地存储在局部机器上的数据子集都传输到一台中心机器上,再进行估计,通常计算不灵活甚至有可能不可行,特别是在中心机器存储容量和计算能力不足或样本高度机密原始数据传输不被允许的情形下。在这样的时代背景下,就非常有必要针对统计研究中常见的回归模型发展行之有效且计算高效的分布式估计算法。本文主要针对实际应用范围广泛的广义线性模型和线性分位数回归中的几类常见估计问题进行分布式算法研究,还包含了部分有关纵向大数据下加权分位数回归估计的并行计算的讨论。具体有:(1)广义线性模型下自适应lasso估计的分布式计算。在广义线性模型中,自适应lasso的正则化路径以及最优的自适应lasso估计通常是利用R程序包“glmnet”求解的。本质上,glmnet中的算法是一种基于坐标下降法的中心化计算方法,在分布式的大数据下,往往计算不灵活,估计速度较慢。本文第3章利用广义线性模型的分布式二次近似表示,提出了一种分布式的自适应lasso估计方法,QAGLM-alasso,并进一步基于LARS(least angle regression)发展了一种QAGLM-alasso估计的正则化路径求解算法,QAGLM-LARS。理论研究表明,在温和的正则化条件下,QAGLM-alasso估计渐近等价于原始的自适应lasso估计。模拟数据和实际数据分析证明,QAGLM-LARS算法具有与经典的glmnet相近的模型选择和估计准确性,并且在分布式环境下,就计算效率而言要优于glmnet。(2)广义线性模型下非凸惩罚估计的分布式计算。添加了非凸惩罚项的广义线性模型是分析实际中非正态、非线性的高维稀疏数据的一种常用方法。通常地,非凸惩罚SCAD和MCP下的广义线性模型估计问题是利用R程序包“ncvreg”求解的。ncvreg中的算法本质上也是一种基于坐标下降法的中心化计算方法,在分布式的大数据下,同样会存在计算不灵活、估计速度慢的问题。本文第4章利用广义线性模型的分布式二次近似表示,提出了一种分布式的非凸惩罚估计方法,QAGLM-NC,而后又基于ADMM(alternating direction method of multipliers)发展了一种求解QAGLM-NC估计的并行算法,QAGLM-ADMM。在常见非凸惩罚SCAD和MCP下,该并行算法中的所有ADMM更新问题均具有显式解。理论研究表明,在温和的正则化条件下,QAGLM-NC所优化的目标函数存在一个一致的局部极小值点。该局部极小值点拥有oracle性质,并且与非凸惩罚估计问题原始的目标函数的一致局部极小值点渐近等价。模拟数据和实际数据分析证明,在分布式环境下,QAGLM-ADMM算法具有与经典的ncvreg相近的模型选择和估计准确性,并且计算速度通常要快于ncvreg。(3)线性分位数回归中非凸惩罚估计的并行计算。当样本数据为小到中等量级时,非凸惩罚下的线性分位数回归估计问题适合由QICD算法求解。QICD的优势在于估计精度高,但它是一种基于坐标下降法的、含有双层循环结构的估计算法,在大样本数据下存在计算速度慢的问题。最近,针对大样本数据、基于ADMM提出的并行算法QPADM,在保证估计准确性的前提下,在计算效率方面较QICD有了很大提升。但QPADM的不足在于收敛速度慢,它往往需要几百次ADMM迭代才能达到收敛,这对于通信交流代价昂贵的分布式环境而言无疑是一个劣势之处。本文第5章通过在估计问题中引入一些合适的辅助变量,基于ADMM发展了一种新的求解线性分位数回归中非凸惩罚估计的并行算法,QPADM-slack。在这些辅助变量中,是两组松弛变量帮助我们将原始估计问题中不光滑的检查损失函数转换为了线性函数。对于常见非凸惩罚SCAD和MCP,QPADM-slack中的所有ADMM更新问题均具有显式解。模拟数据和实际数据分析表明,无论是在非分布式的还是在分布式的环境下,QPADM-slack算法的模型选择准确性和估计精度都与QPADM相近,并且在收敛速度上较QPADM有提升。(4)纵向大数据下加权分位数回归估计的并行计算。纵向数据通常量大、维数高,并且来自于同一个体的观测值之间存在相关性,这些特性给分位数回归的分析和计算增加了进一步的挑战。在纵向数据下,传统的线性分位数回归因完全忽略观测值之间的相关性,估计效率往往不高。加权分位数回归通过在模型中添加一组包含观测值之间相关性信息的权重,可有效提高估计效率。本文第6章使用了加权分位数回归对纵向数据建模,并针对分布式的纵向大数据提出了一种两阶段的加权分位数回归估计并行求解算法。在第一阶段中,利用牛顿-拉弗森算法给出了一种分布式的权重估计计算方法,第二阶段则针对权重确定后的加权分位数回归估计问题,基于ADMM发展了一种并行求解算法,WQR-ADMM。模拟数据和实际数据分析表明,无论是在非分布式的还是在分布式的环境下,本文第6章提出的并行计算方法在估计精度上都与以往传统的基于内点法的中心化算法相近,并且在计算效率上展现了优势性。