内存约束下的高维变系数分位数回归模型

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：bangliju

【摘要】

：

近年来,统计学研究的热点集中到高维数据分析板块。从数据的维度出发,数据的特点可以概括为样本量极其大,特征数非常多。分别对应于人们对事物观测的频率及数量增加,角度及渠

【作者】

：

梁亚坤

【出处】

：

哈尔滨工业大学

【发表日期】

：

2004年期

【关键词】

：

海量数据变系数分位数回归样本分割 B样条中位数选择

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来,统计学研究的热点集中到高维数据分析板块。从数据的维度出发,数据的特点可以概括为样本量极其大,特征数非常多。分别对应于人们对事物观测的频率及数量增加,角度及渠道增多。这些特征表现在经济、社会、科学中的各个领域,这些领域越来越重视数据的作用,其发展受到数据的驱动。这催促着作为工具的计算机和统计方法需要适应时代的要求。在大数据的环境下,硬件基础设施,高效的计算方法,统计分析方法是相辅相成的。硬件设施如计算机内存,计算机处理能力,获取数据的渠道及储存数据的介质等影响着后两者的方法运用。计算方法决定了进行数据分析的时间花费和稳定性。统计方法保障了结果的精确性。而事实上,不同统计方法也受制于样本特征,在高维度海量数据中,传统的优良方法往往失效。这些限制给当下的数据科学家们带来挑战。大规模的数据分析任务往往需要优质的基础平台,快速的计算方法以及相适应的统计学理论加持。然而现实中这类数据对计算机处理统计模型造成了阻碍。很多时候,计算机由于内存的限制无法处理大规模的数据。这在当下各个领域所方便获取和廉价储存的高频率、高维度数据来说是徒劳的,导致无法及时利用总体数据中的信息。诸如生物医疗的数据,基因的个数达到上万个。或者说金融交易数据,其产生频率是非常高的。又如当下不断拓展的数据类型,文字、图像、音视频这些遍布社会生活方方面面的数据,其存储与分析又极大程度对处理器水平产生了要求。数据本身给数据分析带来了挑战,于是产生了现实条件约束下的模型构建问题。反观个体应用,在个人计算机内存有限的情况下,如何调整模型,使其在约束下能够胜任既定的数据分析任务成为一个挑战。由高维数据出发的一个重要领域是变量选择,其原因在于数据往往是冗杂的。意味着多角度采集的特征存在相关性,许多噪声将信号淹没,样本也大多不是同源的。噪声造成了数据的多缺失、多离群以及异质性,这给分析带来障碍及不稳定性。我们所希望的是,从收集到的数据中提取到有用的、感兴趣的特征来构建分析,由此带来的可解释性也易于利用分析结果指导后续工作。而分析前的处理却往往占据整个分析过程的很大一部分。对于实际应用来说,做好这些处理,分析也就水到渠成了。奥卡姆剃刀原理给出在所有可能备选的模型中,我们应该选择能够更好地解释已有数据,并且形式简单的模型。稀疏性原则青睐于,虽然收集到众多特征维度的信号,但是只有少数是真实有用的。在此原则下,我们需要对特征进行选择,这样降低了求解难度和空间占用,带来的自然而然是易于解释的模型。从回归方法看,分位数回归具有最小二乘回归所不可替代的特点。最重要一点是分位数回归能够处理异质性数据,这降低了模型对误差分布的要求,具有一定的稳健性。因为实际应用中,许多误差体现出厚尾的特点。最小二乘回归常常在复杂的误差分布中受到干扰,表现不尽如人意。而对普通线性模型的一个基本拓展,变系数模型成为高维数据分析的一个有力工具。在非参数模型中,变系数模型结构简单,模型隐含系数在状态变量下连续变动的特点,因而也具有可解释性。分位数回归与变系数模型的结合往往能够发挥二者优势。将大数据运用分位数变系数回归模型,也往往需要前述的变量选择。一方面减少求解的计算复杂性,另一方面得到简洁而可利用的结果。一类方法是利用合适的惩罚函数求解回归中的最优化问题。诸多模型采用LASSO的方法,构造L1惩罚函数得到精炼的模型。尽管LASSO缺乏Oracle性质,许多研究者也提出了扩展的LASSO模型,参数估计具有Oracle性质,在模型求解上具有一致性。回顾一开始提到的高维海量数据的问题,计算机科学与计算数学领域早已研究各种数值优化算法来切合问题。研究者们提出了分布式计算的思想,即把一个需要非常巨大的计算能力才能解决的问题分成许多小的部分,然后把这些部分分配给多个计算机进行处理,最后将这些计算结果综合起来得到最终的结果。研究这些数值优化算法,我们介绍了基于分位数回归框架下的坐标下降法和ADMM法,二者可以处理数据分割带来的优化计算问题。相比之下后者更能够融合于分布式框架。统计学家自然也有自己的方法来应对机器内存空间受限问题。随机抽样是一个未利用完全数据的方法。我们还着重介绍了分块估计,其思想与分治算法相同。分块估计的研究主要在于如何将子集数据的结果进行整合。使得整合结果更贴合于完全数据在非分块处理下的结果。中位数选择,大多数投票以及显著性检验给子集结果的整合提供解决方案。总结来看,各学科面临大数据,而机器内存受约束时,都利用了切分来解决问题,整合方案也大同小异。基于众多分布式计算的研究,本文的研究主要集中于在内存约束下,构建分布式变系数分位数回归模型。该模型能够保证计算的部署,以及变量的选择。我们结合高维变系数分位数回归的两步LASSO选择方法,以及最小二乘回归中分块的message算法的中位数选择的思想,得到最终的分布式模型。前者在分位数变系数回归中,利用LASSO和自适应LASSO进行两步筛选。原始的变系数通过B样条基函数近似为一系列样条系数。首先控制模型的规模,在该规模下包含真实模型,能够在高维数据中有效选择变量,大幅度降低数据维度。再将第一步作为初始估计,设定权重进行第二步自适应过程,得到最终模型。该选择过程具有一致性。后者能够拆分为子集数据分别进行回归,最后将回归结果以中位数为指标筛选变量进行整合。这是一种利用分而治之思想的方法。我们的分布式模型结合二者优点,在子机器上部署变系数分位数回归对变量进行两步变量,整合过程展现了相信大多数子机器的相同结果的思想。渐近性质显示最终整合的结果具有一致性。在数值模拟的研究中,我们通过设置和改变函数型系数、协变量分布、误差分布、分位点以及样本量和全模型维度,探究所提出的分布式模型在不同数据下的表现。实验结果在变量选择、估计精度、计算时间上表现优良。我们发现该模型能够对变量进行筛选,得到最有用的变量。相较于非分布式模型,在函数型系数的估计精度略有损失,但是大幅降低计算时长,不易受到虚构数据的干扰而汇总于精简模型。最后我们将该分布式变系数分位数回归模型运用到2005至2006年的印度人口健康调查的真实数据集的分析中,探索影响0岁到5岁的低龄儿童成长发育的因素。结果表明,母亲的身高,受教育程度,以及母乳喂养时长对于孩子的身高是有影响的。影响程度随着孩子的年龄增长产生变化。事实上,从数值研究的结果来看,模型还存在局限性。对于高度重尾的数据表现往往不如一般数据,这对于模型的稳健性提出了要求。模型在结果整合,非零常系数、变系数识别以及计算效率上还有改进的空间。

其他文献

垂直绿化在室内公共空间景观系统中的应用研究

生态景观设计是当今社会的一个热点话题,在一个自然景观匮乏的城市中,绿化的存在显得尤为珍贵,垂直绿化就是城市生态景观规划的重要形式之一。垂直绿化发展多年,在室外领域已经逐渐成熟,近年来垂直绿化从室外逐渐走向室内,与室内空间景观系统理念进行融合。但垂直绿化在室内空间中的应用存在着植物种类单调,后期维护困难以及植物在室内空间中缺少光照,不能与室内整体空间设计相契合等问题。在设计过程中,根据绿化区域设计的

学位

新媒体时代下的中国电影海报图形设计研究

电影海报作为新媒体时代下电影宣传中最重要的媒介之一,往往出现于网络新媒体、电影院、商业广告宣传区。国内电影海报行业面临着为了追求商业利益而忽视电影海报的艺术审美性、抄袭甚至照搬国外电影海报设计作品、“明星大头照”流水线模式化设计理念等危机。本研究从新媒体时代电影海报图形设计的角度出发,对其时代背景、艺术风格特色以及艺术表现力等做出深刻的研究分析。首先,通过参观长春电影制片厂影片海报集萃展(1949

学位

潍坊市JK集团的绩效管理体系优化研究

近年来,随着全面深化改革的不断推进,新一轮国有企业改革浪潮也已经来临,国有企业既要完成政府赋予的战略使命,又要完成市场化改革目标,如何运用绩效管理指导国有企业改革不

学位

国有企业绩效管理战略地图平衡计分卡关键绩效指标

乡村振兴背景下湖北省绿色农业发展对农民收入的影响研究

绿色农业是一种促进农业可持续发展的新型农业发展模式与体系,是以绿色农产品产业化为主线的生态、安全、优质、高产、高效的现代农业,绿色农业的发展是促进绿色经济增长的重

学位

绿色农业农民收入乡村振兴

HDXY集团战略发展研究

XDXY集团是中国知名的大型资源能源综合产业集团,总部设在广州市,业务和市场网络遍及全球,秉承“以实干创造未来”的企业精神,坚持以市场为导向、以客户为中心的经营理念,形

学位

发展历程态势分析战略规划

以蜡螟为感染模型研究Aspergillus lentulus的侵袭性

目的:建立Aspergillus lentulus(A.lentulus或A.L)感染动物模型,借动物模型初步探究A.lentulus的毒力。方法:将125只蜡螟随机分成5组,以Aspergillus lentulus临床株、Aspergillus lentulus标准株作为实验组,烟曲霉、白念珠菌为对照组,PBS为空白对照组。实验组及对照组菌株分别制成106CFU/m L孢子悬液,感染各组蜡螟。

学位

生物质及废弃物转化为多孔碳及其在储能方面的应用

随着地球上化石能源的日益消耗,新兴绿色能源设备如燃料电池以及钠离子电池等成为关注对象。作为电化学能源设备,电极材料是其主要部分。由于多孔碳材料具有导电性高、稳定性好和孔隙率高等优点使得其在电极材料得到广泛应用。本论文是以储量丰富的可再生生物质或废弃物做为基础,设计制备了过渡金属磷化物与多孔碳材料进行复合,以及特定的杂原子与多孔材料进行掺杂。因此得到了适用于不同能源应用领域的多孔碳基材料或多孔碳材料

学位

水产品质量安全信息属性的消费者偏好研究

近年来,我国动物性食物消费模式发生从以畜禽肉类为主向以鱼虾类水产品为主转变,水产品质量安全在城乡居民食品消费中的重要程度日渐突出;全面客观科学地分析我国水产品质量

学位

水产品安全消费者偏好属性非参与选择实验广义混合logit模型

再生资源价格波动的影响因素及对策研究

随着科学技术的飞速发展,人们对各类物质资源的开采程度不断提高,导致土地沙漠化、全球变暖等现象日益严重,对地球的生态环境造成严重的破坏。再生资源回收利用同时具有环境

学位

再生资源价格波动影响因素突变点对策

我国典型流域生态补偿财政支出的增收减贫效应研究

我国生态补偿财政支出政策的实施在促使流域生态环境污染得到综合治理的同时也对解决贫困问题产生积极影响,有助实现“生态环境保护”和“居民增收减贫”的双赢。因此研究生

学位

生态补偿财政支出增收效应减贫效应门槛模型

内存约束下的高维变系数分位数回归模型

其他学术论文