广义线性模型和分位数回归下的分布式估计算法研究

来源 :中央财经大学 | 被引量 : 0次 | 上传用户:lll2518
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的不断发展,大数据时代已悄然来临。分布式存储是目前解决大数据存放问题的一种常用方法。对于分布式的大样本数据,以往传统的中心化估计算法,因需要事先将所有分布式地存储在局部机器上的数据子集都传输到一台中心机器上,再进行估计,通常计算不灵活甚至有可能不可行,特别是在中心机器存储容量和计算能力不足或样本高度机密原始数据传输不被允许的情形下。在这样的时代背景下,就非常有必要针对统计研究中常见的回归模型发展行之有效且计算高效的分布式估计算法。本文主要针对实际应用范围广泛的广义线性模型和线性分位数回归中的几类常见估计问题进行分布式算法研究,还包含了部分有关纵向大数据下加权分位数回归估计的并行计算的讨论。具体有:(1)广义线性模型下自适应lasso估计的分布式计算。在广义线性模型中,自适应lasso的正则化路径以及最优的自适应lasso估计通常是利用R程序包“glmnet”求解的。本质上,glmnet中的算法是一种基于坐标下降法的中心化计算方法,在分布式的大数据下,往往计算不灵活,估计速度较慢。本文第3章利用广义线性模型的分布式二次近似表示,提出了一种分布式的自适应lasso估计方法,QAGLM-alasso,并进一步基于LARS(least angle regression)发展了一种QAGLM-alasso估计的正则化路径求解算法,QAGLM-LARS。理论研究表明,在温和的正则化条件下,QAGLM-alasso估计渐近等价于原始的自适应lasso估计。模拟数据和实际数据分析证明,QAGLM-LARS算法具有与经典的glmnet相近的模型选择和估计准确性,并且在分布式环境下,就计算效率而言要优于glmnet。(2)广义线性模型下非凸惩罚估计的分布式计算。添加了非凸惩罚项的广义线性模型是分析实际中非正态、非线性的高维稀疏数据的一种常用方法。通常地,非凸惩罚SCAD和MCP下的广义线性模型估计问题是利用R程序包“ncvreg”求解的。ncvreg中的算法本质上也是一种基于坐标下降法的中心化计算方法,在分布式的大数据下,同样会存在计算不灵活、估计速度慢的问题。本文第4章利用广义线性模型的分布式二次近似表示,提出了一种分布式的非凸惩罚估计方法,QAGLM-NC,而后又基于ADMM(alternating direction method of multipliers)发展了一种求解QAGLM-NC估计的并行算法,QAGLM-ADMM。在常见非凸惩罚SCAD和MCP下,该并行算法中的所有ADMM更新问题均具有显式解。理论研究表明,在温和的正则化条件下,QAGLM-NC所优化的目标函数存在一个一致的局部极小值点。该局部极小值点拥有oracle性质,并且与非凸惩罚估计问题原始的目标函数的一致局部极小值点渐近等价。模拟数据和实际数据分析证明,在分布式环境下,QAGLM-ADMM算法具有与经典的ncvreg相近的模型选择和估计准确性,并且计算速度通常要快于ncvreg。(3)线性分位数回归中非凸惩罚估计的并行计算。当样本数据为小到中等量级时,非凸惩罚下的线性分位数回归估计问题适合由QICD算法求解。QICD的优势在于估计精度高,但它是一种基于坐标下降法的、含有双层循环结构的估计算法,在大样本数据下存在计算速度慢的问题。最近,针对大样本数据、基于ADMM提出的并行算法QPADM,在保证估计准确性的前提下,在计算效率方面较QICD有了很大提升。但QPADM的不足在于收敛速度慢,它往往需要几百次ADMM迭代才能达到收敛,这对于通信交流代价昂贵的分布式环境而言无疑是一个劣势之处。本文第5章通过在估计问题中引入一些合适的辅助变量,基于ADMM发展了一种新的求解线性分位数回归中非凸惩罚估计的并行算法,QPADM-slack。在这些辅助变量中,是两组松弛变量帮助我们将原始估计问题中不光滑的检查损失函数转换为了线性函数。对于常见非凸惩罚SCAD和MCP,QPADM-slack中的所有ADMM更新问题均具有显式解。模拟数据和实际数据分析表明,无论是在非分布式的还是在分布式的环境下,QPADM-slack算法的模型选择准确性和估计精度都与QPADM相近,并且在收敛速度上较QPADM有提升。(4)纵向大数据下加权分位数回归估计的并行计算。纵向数据通常量大、维数高,并且来自于同一个体的观测值之间存在相关性,这些特性给分位数回归的分析和计算增加了进一步的挑战。在纵向数据下,传统的线性分位数回归因完全忽略观测值之间的相关性,估计效率往往不高。加权分位数回归通过在模型中添加一组包含观测值之间相关性信息的权重,可有效提高估计效率。本文第6章使用了加权分位数回归对纵向数据建模,并针对分布式的纵向大数据提出了一种两阶段的加权分位数回归估计并行求解算法。在第一阶段中,利用牛顿-拉弗森算法给出了一种分布式的权重估计计算方法,第二阶段则针对权重确定后的加权分位数回归估计问题,基于ADMM发展了一种并行求解算法,WQR-ADMM。模拟数据和实际数据分析表明,无论是在非分布式的还是在分布式的环境下,本文第6章提出的并行计算方法在估计精度上都与以往传统的基于内点法的中心化算法相近,并且在计算效率上展现了优势性。
其他文献
电解水制氢及氢燃料电池装置是氢能循环且高效利用过程中的两种重要装置。目前,高效的电解水阴极析氢反应(HER)催化剂及燃料电池阳极氢氧化反应(HOR)催化剂均是以Pt族贵金属为主,但其高成本和有限的储量限制了其大规模使用及其氢能装置的商业化发展。因此,开发廉价且高效的HER/HOR电催化剂对推动氢能的发展具有重要意义。催化剂组成和结构的设计和优化,是开发高性能的电催化剂的有效策略。进一步深入研究基于
为应对日益严重的资源短缺与环境污染,迫切需要减少温室气体排放,提高能源利用效率。在汽车工业领域,汽车轻量化能有效地节能减排,已成为当今世界汽车行业发展的潮流。Fe-Mn-Al-C钢具有高强度、高塑性、耐蚀性和低密度等优点,成为未来汽车用钢最有希望的候选材料,是汽车轻量化的重点研究方向。其中,Fe-Mn-Al-C奥氏体低密度钢由于能更显著地降低密度、可时效强化和其独特的形变机理得到了更多的关注。然而
稳定的财政收入是政府部门保持正常运转、提供公共品及公共服务的基本保障,也是重要的宏观调控手段。1994年分税制改革结束了“分灶吃饭”式财政管理体制,重新划分了中央与地方政府的财政收入,增强了中央政府的财力,也大大地削弱了地方政府财力,影响了地方政府的财政收入稳定性以及财政职能的发挥。现阶段,财政收入稳定性具有更加重要的现实意义。突如其来的新冠肺炎疫情和错综复杂的国内外环境变化挑战了财税体制抗击外部
高压电缆输电工程是绿色能源和智能电网发展的基础,对未来全球能源互联网建设有着重要的意义。高压电缆设计的可靠性对未来电力系统的发展有着重要意义。电寿命指数是电缆出厂试验和绝缘设计的重要参数。然而传统电缆设计方法将电寿命指数视为常数,这与电场等因素对电寿命指数具有显著影响的实验事实相违背。此外,传统电缆设计方法仅在交流电缆中有较多的应用经验,对直流电缆的空间电荷问题缺乏考虑,需要深入研究空间电荷对电寿
近年来,随着大数据、云计算、人工智能等数字化、信息化技术在各领域的运用,数字金融悄然崛起,并以惊人的速度改变了传统金融行业的服务方式、运营体系等各方面。数字金融突破了传统金融服务经济发展的瓶颈,更好的发挥了金融支持实体经济的作用。尤其是在2020年新冠肺炎疫情期间,数字金融作用尤为凸显,为中小企业提供了“无接触”式的线上金融服务,不仅大幅简化金融服务流程、满足疫期金融服务需求,而且为疫后实体经济的
随着特高压交流输电线路成为电网建设的热点,Q420B等高强钢已广泛应用于输电线路的建设,由于输电铁塔属于典型的风荷载敏感结构,且其日常风环境较恶劣,结构各构件在服役期内持续承受风振疲劳损伤和酸雨大气的耦合作用,导致其抗力不断下降,在服役后期可能无法达到设计时的安全标准,评估输电杆塔在服役后期遭遇极端偶遇荷载作用时的安全性具有重要的意义。鉴于此,本文从输电塔Q420B高强钢材料和构件的腐蚀疲劳试验、
经过四十多年的改革开放,中国的经济和社会发生了深刻转型,并取得了重大成就,经济总量已稳居世界第二,全面建成小康社会的伟大目标已经完成。与此同时,中国医疗服务业同样取得了令人瞩目的成就,自2009年启动新一轮医改以来,中国医疗服务业政府规制不断调整优化,提升了医疗服务的可及性和公平性,显著提高了中国居民的健康水平和预期寿命,赢得了国际社会的广泛认可。但随着中国社会和经济的不断发展,医疗服务领域中“人
连续谱中束缚态(Bound states in the continuum,BIC)是一类特殊的束缚态,其能量高于势阱,但其波函数在空间中局域并且平方可积。早在1929年,von Neumann和Wigner就在量子系统中提出了连续谱中存在束缚态的概念。但是他们的模型需要精确的设计局部势函数,因此在实验上难以实现。另外一种观点认为,存在E>V局域态的原因是多个共振态之间的干涉相消。而共振模式的干涉
中国的快速城镇化带来了丰厚的物质基础同时也导致了严重的空气污染问题,尤其是PM2.5污染。长期暴露在高浓度的PM2.5环境中对人们的健康具有重大威胁。基于城市、街区、建筑空间尺度探讨建成环境对PM2.5浓度的影响,对于从宏观和微观尺度制定改善城市建成环境的策略,减轻居民的PM2.5暴露,提升居民的健康水平和幸福感都具有重要意义。文章首先从理论层面构建了多尺度建成环境与PM2.5浓度的关联框架。然后
负载型金属催化剂是电催化领域中研究最广泛的非均相催化剂。金属催化剂的结构和尺寸是影响其活性的重要参数。由于电催化的活性中心是配位不饱和的金属原子,因此减小催化剂的粒径可以大大提高每个金属原子的利用率。锚定在载体上的金属单原子催化剂(SACs)具有的最大原子利用率、高选择性和高效率,因而在能源转换和储存中备受瞩目。但是,在金属单原子催化剂中,金属原子的表面自由能大,趋于聚集成纳米颗粒或纳米簇。为了防