基于特征空间分割下的稀疏分布式分位数回归

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:Rachellanye
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的来临,海量的样本量为我们的日常生活带来了更多的便利。例如在基因组学中,全基因组测序的价格相比以前有大幅下降。在监控视频分析、生物医学成像、零售、社交媒体分析和高频金融等其他领域也是如此。数据可以更大规模、更廉价地生产和存储的现有趋势很可能在未来得到保持,甚至加速。这一趋势将对商业、工程和科学产生深远的影响。例如科学进步正在变得越来越受数据驱动,研究人员将越来越多地认为自己是数据的消费者。因此大数据的有效统计分析变得越来越重要。大数据在其他学科中也有诸多应用,如金融学、经济学、基因组学、神经科学等。例如在社交网络中,每天都有海量的社交网络数据被微信和微博产生。这些数据展示了很多人的个人特征,并使这些特征在各个领域得到了开发。例如有些研究员利用这些数据来预测股市行情,流行性病毒和电影票房。此外,互联网和社交媒体具有海量关于消费者偏好的信息,这能引领商业周期、经济指标、社会经济状态以及政治态度。社交网络数据必将继续爆炸式增长,并可用于更多的新的应用程序。在大数据时代,还有许多新的应用正在被研发:个性化医疗、个性化服务、数字人文和互联网安全。但是大数据在为我们的生活带来福利的同时,也给数据科学家带来了许多全新的挑战。那么大数据分析又面临哪些挑战呢?由于大数据具有大样本量和高维数的特点。这两个特点又带来了三个特有的挑战:(1)高维度的特性带来了偶然同质性、伪相关和噪声积累;(2)大样本量与高维度的结合产生了诸如算法不稳定、计算量大等问题;(3)大数据中的海量样本通常是使用不同的技术在不同的时间点从多个来源聚合而成的。为了更好的应对大数据所带来的挑战,我们需要探索新的计算方法和统计思维。原因在于许多传统方法在中等样本量的情况下表现良好,但无法扩展到海量数据的情况。同样地,许多在面对低维数据问题时表现良好的统计方法在分析高维数据时常常失效。为了设计能有效预测和探索大数据的统计算法,我们需要寻找计算效率和统计精度的平衡点。至于在统计准确性方面,变量选择和降维在分析高维数据中发挥着至关重要的作用。至于在计算效率方面,大数据给予了新的数据存储方法和基础计算设施发展的动力。优化仅仅是大数据分析的工具,而不是大数据分析的目的。这种范式的变化导致了快速算法方向上的重大进展,这些算法同样可以扩展到高维的大规模数据分析中。这使得包括应用数学,优化和统计在内的不同领域之间形成相互促进。计算复杂性、模型可解释性和统计精度是统计分析过程中的三大要素。传统研究中特征变量的数量p远小于样本观测值的数量n。在此情况下,这三大要素不用为了其他要素的效率而互相牺牲。然而传统的方法在面对样本量n远小于或等于特征维度p时却存在许多问题。这些问题包括如何兼顾统计程序的稳定性和计算效率;如何解释估计模型;如何实现非渐近或渐近理论;以及如何提出在逻辑上更高效的统计程序?同时在科技的快速推动下,数据的整体规模也在逐渐变得体量巨大。那么这又产生了一个更复杂的问题:当样本量n或者特征量p远大于一台普通机器的存储极限m时,我们应该怎样来储存和处理数据?这个问题在过去十年引起计算科学家注意的同时也成为了众多高科技公司的面试难题。然而这其实仅仅是一个针对海量数据集的计算问题,并没有涉及任何统计建模问题。在分析高维数据时,稀疏性原则认为只有少数因子对结果有影响。这一原则被广泛采用且被认为是可行的。超高维特征空间下的变量选择问题越来越多的出现在大数据分析中,因此急需新的统计学理论和方法。例如在不同蛋白质之间相互作用的研究中,样本容量的数量级仅仅数千,但是特征空间的数量级却超过数百万;在使用微阵列基因数据的做疾病分类时,阵列的数量级一般为数十,但是基因表达谱的数量级却在数万以上;在研究表现型和基因型之间的遗传联系时,两者的数量级是几乎相同的。在这些情况下,我们需要找出有助于响应的显着特征并准确地预测某些临床干预后的反馈。当前的变量选择技术通过一系列变换可以对超高维空间进行实验,使高维统计推断成为可能的假设是回归函数位于低维流形中。在此情况下,假设p维回归的参数是稀疏的,其中大部分分量为零,剩余的非零分量则为有效特征变量。在稀疏性条件下,通过特征变量选择可以筛选出有效影响因子,进而提高估计的准确性和大数据模型的可解释性。当稀疏性特别高时,特征变量选择还能大幅度降低计算成本。在高维数据下Lasso方法在解决线性回归问题时会遇到计算时间和计算复杂度的问题。文本在第二章首先介绍了目前解决Lasso问题的一些优化算法。梯度下降法是一种利用局部信息进行迭代的一阶方法,但是需要迭代的次数过于庞大。在此基础上加入光滑和对偶的方法可以得到对偶锥的优化算法,相比一般梯度下降法能够得到更为有效和稳定的迭代算法。交替方向乘子法在海量数据情况下利用分布式凸优化的优点,对Lasso问题交替进行岭回归来达到加快收敛速度的目的。坐标下降法利用目标函数中优化子函数的想法选取最大下降方向,以达到减小计算时间和降低储存空间要求的目的。但是传统的优化算法在面对存储有限而数据量过大的情况时,仍然不能有效的进行回归和分类问题的分析。为此我们介绍了一种通过对样本空间进行分割的子集聚合中位数选择估计量的算法。这种算法能在样本量远大于机器存储量的时候对数据进行有效的处理和分析以达到线性回归分析的目的。针对特征量过大而超出机器存储空间的问题,我们首先介绍了一种基于贝叶斯的分裂合并算法,但是此方法不能保证筛选的效率。然后我们介绍了一种基于分组测试的并行特征选择算法,但是此种算法太依赖于特征组间相互独立这一个假设。最后我们介绍了去相关化特征空间分割算法,这种算法先将特征之间的相关性弱化进而对特征空间进行分割来实现变量筛选的目的。在一般线性回归模型中,Lasso方法在处理重尾问题时表现出不稳健的特性。但是分位数回归能不受误差分布的影响,进而得到更为稳健的回归模型。本文首先介绍了经典的分位数回归方法和一般的统计估计分治算法,但是这个算法不适用于当今的大规模数据集。然后我们介绍了基于机器存储有限的分位数回归线性估计算法。这个算法首先将样本空间进行分割,然后利用核函数对分位数回归进行光滑处理,最后将估计量转化为一个二次型问题,通过变型得到一个L1正则化带有惩罚项的估计量。这个算法能较好地解决海量数据情况下的分位数回归问题,并且将Lasso方法和分位数回归有效结合起来。最后我们受message算法和DECO算法的启发,在样本量和特征量均远大于存储空间时,提出了分位数回归中的样本和特征空间分割算法。这个算法结合了样本空间分割和特征空间分割的优点,在分位数回归中高效地进行变量选择和估计。我们还对这个算法进行了模拟实验,与在全样本下进行Lasso方法的结果进行了对比。从模拟实验结果可以看出我们的算法在切割次数合理并且样本之间的相关性很低的情况下相比于在全样本空间下进行Lasso方法要更为高效,并且在误差项为轻微重尾分布时依然表现稳健。但是当样本之间的相关性很高时,由于弱相关化步骤的不足导致我们的方法效果并不是很出色。虽然计算的结果更为出色,但是我们的算法相对于全样本下进行Lasso方法要耗时更长。这个的原因是我们的算法中弱相关化这个步骤需要耗费大量的计算时间。这个问题在后续的研究中可以通过算法的优化来得以解决。最后我们通过一个超导体临界温度回归问题的真实数据例子,展现了我们的算法在处理这个大数据问题时和XGB oost算法同样高效。在现实生活中,存在着大量的重尾实际问题,在高度重尾的情况下,我们的方法表现并不是特别良好。因此我们还需要在此算法的基础上继续探究样本空间分割和特征空间分割更为稳健的方法来适应当今大数据背景下的回归问题。
其他文献
图像融合是一种广泛应用在图像理解和计算机视觉的信息融合技术。图像融合技术能够把图像的特征信息有效的重组在一起,并将其结合成高质量的图像。在军事、遥感以及医学科学
本文以诺思洛普·弗莱的神话批评理论为基础,对杰克·伦敦的小说《马丁·伊登》中的主要人物、景象和主题进行《圣经》原型分析。人物上主要是从神启意象和魔怪意象两个角度
随着非线性声学在越来越多的领域中展开了实际应用,使得人们对非线性声学理论研究更加深入。由于声音的传播离不开介质,在自然界中介质大多数是运动的,比如流动的空气、海水等,这使得在实际应用非线性声学相关理论时,不得不考虑介质运动造成的影响。本文在假设介质具有均匀流速的前提下,从流体力学基本方程组出发,推导得到了匀速运动介质中的非线性声波动方程,并利用时域有限差分算法相关理论对该方程进行离散化处理,从而得
目的:糖尿病心肌病(diabetic cardiomyopathy,DCM)是糖尿病患者高死亡率和高致残率的主要原因之一。基于对糖尿病患者中心血管病变危险性的进一步认识,在美国心脏学会1999年
复杂动态网有大量的应用,同时由于其复杂性也有许多值得研究的问题和现象,其中同步现象在自然界及人造系统中被广泛地发现,也被广泛地研究,随着越来越多复杂情况被考虑,同步模式也越来越丰富。本文主要研究了三类时变复杂动态网的同步问题,针对系统中存在的未知时变参数,采用自适应的方法使系统达到同步。本文共分为六章,其中第一章概述了复杂动态网及其应用,并介绍了相关研究进展,第二章简要介绍了本文需要的基础知识,第
华蓥西地区石炭系的油气勘探已经开展了几十年,但一直未取得重大突破。为此,有必要开展地层、沉积相、气源、储层、圈闭、保存等成藏条件的研究工作,旨在分析天然气成藏条件优劣,准确评价华蓥西地区石炭系勘探前景。本论文以碳酸盐岩储层地质学、石油地质学、构造地质学和地震地层学等学科理论和方法,充分利用钻井、试油、测井、地震及分析化验等资料,结合野外露头和区域研究成果,对石炭系天然气成藏条件及有利勘探区带预测开
μ基理论源于动曲线曲面方法,因为它特殊的代数与几何性质,成为研究曲线和曲面表示及相关性质的重要代数工具。在几何造型领域中,有理曲线曲面的近似表示问题是近三十年来众多学者研究的热点之一。本文主要利用稀疏近似μ基理论来实现对有理曲线及直纹面的近似表示。针对于有理曲线的近似表示,本文在近似μ基的基础上,提出了稀疏度的概念,确定了稀疏μ基这一定义。然后通过系数权重的比较,确定稀疏μ基表达结构中基的位置,给
非均匀的栖息地对种群分布及动力学性质有显著的影响,从数学上理解这些复杂的影响是有意义的,且具有一定的挑战性。周期环境是一类最简单的非均匀栖息地,其对种群动力学的影响受到学者的广泛关注。如何从数学上来刻画环境的周期性,进而来研究周期性对种群的影响,具有理论和应用价值。一维离散格点上的周期环境是一类理想化的环境。本文拟探索该环境对一类具有阶段年龄结构种群动力学的影响,特别是周期环境和阶段结构对动力学性
上海都市现代农业在全国居于领先地位,依托城市、服务城市,通过集聚现代农业先进生产要素,在生产、生活、生态多方位的功能开发上取得一系列重大进展。为适应上海城市发展对
生物微晶玻璃被认为是可应用于骨组织工程等领域良好的生物材料,氟磷灰石微晶玻璃是研究热点之一。目前对其析晶机理,生物相容性的研究不够成熟,因此研究氟磷灰石微晶玻璃析晶机理,生物相容性具有重要的现实意义。此外,在面对不同的性能需求时,传统制备方法需要通过更改配方来获得不同晶相的微晶玻璃,可控性差,操作复杂,耗能高。因此探讨改变基础玻璃粒度获得磷灰石复相微晶玻璃,再通过掺杂氧化锆,烧结后获得磷灰石多相微