论文部分内容阅读
近年来,统计学研究的热点集中到高维数据分析板块。从数据的维度出发,数据的特点可以概括为样本量极其大,特征数非常多。分别对应于人们对事物观测的频率及数量增加,角度及渠道增多。这些特征表现在经济、社会、科学中的各个领域,这些领域越来越重视数据的作用,其发展受到数据的驱动。这催促着作为工具的计算机和统计方法需要适应时代的要求。在大数据的环境下,硬件基础设施,高效的计算方法,统计分析方法是相辅相成的。硬件设施如计算机内存,计算机处理能力,获取数据的渠道及储存数据的介质等影响着后两者的方法运用。计算方法决定了进行数据分析的时间花费和稳定性。统计方法保障了结果的精确性。而事实上,不同统计方法也受制于样本特征,在高维度海量数据中,传统的优良方法往往失效。这些限制给当下的数据科学家们带来挑战。大规模的数据分析任务往往需要优质的基础平台,快速的计算方法以及相适应的统计学理论加持。然而现实中这类数据对计算机处理统计模型造成了阻碍。很多时候,计算机由于内存的限制无法处理大规模的数据。这在当下各个领域所方便获取和廉价储存的高频率、高维度数据来说是徒劳的,导致无法及时利用总体数据中的信息。诸如生物医疗的数据,基因的个数达到上万个。或者说金融交易数据,其产生频率是非常高的。又如当下不断拓展的数据类型,文字、图像、音视频这些遍布社会生活方方面面的数据,其存储与分析又极大程度对处理器水平产生了要求。数据本身给数据分析带来了挑战,于是产生了现实条件约束下的模型构建问题。反观个体应用,在个人计算机内存有限的情况下,如何调整模型,使其在约束下能够胜任既定的数据分析任务成为一个挑战。由高维数据出发的一个重要领域是变量选择,其原因在于数据往往是冗杂的。意味着多角度采集的特征存在相关性,许多噪声将信号淹没,样本也大多不是同源的。噪声造成了数据的多缺失、多离群以及异质性,这给分析带来障碍及不稳定性。我们所希望的是,从收集到的数据中提取到有用的、感兴趣的特征来构建分析,由此带来的可解释性也易于利用分析结果指导后续工作。而分析前的处理却往往占据整个分析过程的很大一部分。对于实际应用来说,做好这些处理,分析也就水到渠成了。奥卡姆剃刀原理给出在所有可能备选的模型中,我们应该选择能够更好地解释已有数据,并且形式简单的模型。稀疏性原则青睐于,虽然收集到众多特征维度的信号,但是只有少数是真实有用的。在此原则下,我们需要对特征进行选择,这样降低了求解难度和空间占用,带来的自然而然是易于解释的模型。从回归方法看,分位数回归具有最小二乘回归所不可替代的特点。最重要一点是分位数回归能够处理异质性数据,这降低了模型对误差分布的要求,具有一定的稳健性。因为实际应用中,许多误差体现出厚尾的特点。最小二乘回归常常在复杂的误差分布中受到干扰,表现不尽如人意。而对普通线性模型的一个基本拓展,变系数模型成为高维数据分析的一个有力工具。在非参数模型中,变系数模型结构简单,模型隐含系数在状态变量下连续变动的特点,因而也具有可解释性。分位数回归与变系数模型的结合往往能够发挥二者优势。将大数据运用分位数变系数回归模型,也往往需要前述的变量选择。一方面减少求解的计算复杂性,另一方面得到简洁而可利用的结果。一类方法是利用合适的惩罚函数求解回归中的最优化问题。诸多模型采用LASSO的方法,构造L1惩罚函数得到精炼的模型。尽管LASSO缺乏Oracle性质,许多研究者也提出了扩展的LASSO模型,参数估计具有Oracle性质,在模型求解上具有一致性。回顾一开始提到的高维海量数据的问题,计算机科学与计算数学领域早已研究各种数值优化算法来切合问题。研究者们提出了分布式计算的思想,即把一个需要非常巨大的计算能力才能解决的问题分成许多小的部分,然后把这些部分分配给多个计算机进行处理,最后将这些计算结果综合起来得到最终的结果。研究这些数值优化算法,我们介绍了基于分位数回归框架下的坐标下降法和ADMM法,二者可以处理数据分割带来的优化计算问题。相比之下后者更能够融合于分布式框架。统计学家自然也有自己的方法来应对机器内存空间受限问题。随机抽样是一个未利用完全数据的方法。我们还着重介绍了分块估计,其思想与分治算法相同。分块估计的研究主要在于如何将子集数据的结果进行整合。使得整合结果更贴合于完全数据在非分块处理下的结果。中位数选择,大多数投票以及显著性检验给子集结果的整合提供解决方案。总结来看,各学科面临大数据,而机器内存受约束时,都利用了切分来解决问题,整合方案也大同小异。基于众多分布式计算的研究,本文的研究主要集中于在内存约束下,构建分布式变系数分位数回归模型。该模型能够保证计算的部署,以及变量的选择。我们结合高维变系数分位数回归的两步LASSO选择方法,以及最小二乘回归中分块的message算法的中位数选择的思想,得到最终的分布式模型。前者在分位数变系数回归中,利用LASSO和自适应LASSO进行两步筛选。原始的变系数通过B样条基函数近似为一系列样条系数。首先控制模型的规模,在该规模下包含真实模型,能够在高维数据中有效选择变量,大幅度降低数据维度。再将第一步作为初始估计,设定权重进行第二步自适应过程,得到最终模型。该选择过程具有一致性。后者能够拆分为子集数据分别进行回归,最后将回归结果以中位数为指标筛选变量进行整合。这是一种利用分而治之思想的方法。我们的分布式模型结合二者优点,在子机器上部署变系数分位数回归对变量进行两步变量,整合过程展现了相信大多数子机器的相同结果的思想。渐近性质显示最终整合的结果具有一致性。在数值模拟的研究中,我们通过设置和改变函数型系数、协变量分布、误差分布、分位点以及样本量和全模型维度,探究所提出的分布式模型在不同数据下的表现。实验结果在变量选择、估计精度、计算时间上表现优良。我们发现该模型能够对变量进行筛选,得到最有用的变量。相较于非分布式模型,在函数型系数的估计精度略有损失,但是大幅降低计算时长,不易受到虚构数据的干扰而汇总于精简模型。最后我们将该分布式变系数分位数回归模型运用到2005至2006年的印度人口健康调查的真实数据集的分析中,探索影响0岁到5岁的低龄儿童成长发育的因素。结果表明,母亲的身高,受教育程度,以及母乳喂养时长对于孩子的身高是有影响的。影响程度随着孩子的年龄增长产生变化。事实上,从数值研究的结果来看,模型还存在局限性。对于高度重尾的数据表现往往不如一般数据,这对于模型的稳健性提出了要求。模型在结果整合,非零常系数、变系数识别以及计算效率上还有改进的空间。