论文部分内容阅读
随着大数据时代的来临,海量的样本量为我们的日常生活带来了更多的便利。例如在基因组学中,全基因组测序的价格相比以前有大幅下降。在监控视频分析、生物医学成像、零售、社交媒体分析和高频金融等其他领域也是如此。数据可以更大规模、更廉价地生产和存储的现有趋势很可能在未来得到保持,甚至加速。这一趋势将对商业、工程和科学产生深远的影响。例如科学进步正在变得越来越受数据驱动,研究人员将越来越多地认为自己是数据的消费者。因此大数据的有效统计分析变得越来越重要。大数据在其他学科中也有诸多应用,如金融学、经济学、基因组学、神经科学等。例如在社交网络中,每天都有海量的社交网络数据被微信和微博产生。这些数据展示了很多人的个人特征,并使这些特征在各个领域得到了开发。例如有些研究员利用这些数据来预测股市行情,流行性病毒和电影票房。此外,互联网和社交媒体具有海量关于消费者偏好的信息,这能引领商业周期、经济指标、社会经济状态以及政治态度。社交网络数据必将继续爆炸式增长,并可用于更多的新的应用程序。在大数据时代,还有许多新的应用正在被研发:个性化医疗、个性化服务、数字人文和互联网安全。但是大数据在为我们的生活带来福利的同时,也给数据科学家带来了许多全新的挑战。那么大数据分析又面临哪些挑战呢?由于大数据具有大样本量和高维数的特点。这两个特点又带来了三个特有的挑战:(1)高维度的特性带来了偶然同质性、伪相关和噪声积累;(2)大样本量与高维度的结合产生了诸如算法不稳定、计算量大等问题;(3)大数据中的海量样本通常是使用不同的技术在不同的时间点从多个来源聚合而成的。为了更好的应对大数据所带来的挑战,我们需要探索新的计算方法和统计思维。原因在于许多传统方法在中等样本量的情况下表现良好,但无法扩展到海量数据的情况。同样地,许多在面对低维数据问题时表现良好的统计方法在分析高维数据时常常失效。为了设计能有效预测和探索大数据的统计算法,我们需要寻找计算效率和统计精度的平衡点。至于在统计准确性方面,变量选择和降维在分析高维数据中发挥着至关重要的作用。至于在计算效率方面,大数据给予了新的数据存储方法和基础计算设施发展的动力。优化仅仅是大数据分析的工具,而不是大数据分析的目的。这种范式的变化导致了快速算法方向上的重大进展,这些算法同样可以扩展到高维的大规模数据分析中。这使得包括应用数学,优化和统计在内的不同领域之间形成相互促进。计算复杂性、模型可解释性和统计精度是统计分析过程中的三大要素。传统研究中特征变量的数量p远小于样本观测值的数量n。在此情况下,这三大要素不用为了其他要素的效率而互相牺牲。然而传统的方法在面对样本量n远小于或等于特征维度p时却存在许多问题。这些问题包括如何兼顾统计程序的稳定性和计算效率;如何解释估计模型;如何实现非渐近或渐近理论;以及如何提出在逻辑上更高效的统计程序?同时在科技的快速推动下,数据的整体规模也在逐渐变得体量巨大。那么这又产生了一个更复杂的问题:当样本量n或者特征量p远大于一台普通机器的存储极限m时,我们应该怎样来储存和处理数据?这个问题在过去十年引起计算科学家注意的同时也成为了众多高科技公司的面试难题。然而这其实仅仅是一个针对海量数据集的计算问题,并没有涉及任何统计建模问题。在分析高维数据时,稀疏性原则认为只有少数因子对结果有影响。这一原则被广泛采用且被认为是可行的。超高维特征空间下的变量选择问题越来越多的出现在大数据分析中,因此急需新的统计学理论和方法。例如在不同蛋白质之间相互作用的研究中,样本容量的数量级仅仅数千,但是特征空间的数量级却超过数百万;在使用微阵列基因数据的做疾病分类时,阵列的数量级一般为数十,但是基因表达谱的数量级却在数万以上;在研究表现型和基因型之间的遗传联系时,两者的数量级是几乎相同的。在这些情况下,我们需要找出有助于响应的显着特征并准确地预测某些临床干预后的反馈。当前的变量选择技术通过一系列变换可以对超高维空间进行实验,使高维统计推断成为可能的假设是回归函数位于低维流形中。在此情况下,假设p维回归的参数是稀疏的,其中大部分分量为零,剩余的非零分量则为有效特征变量。在稀疏性条件下,通过特征变量选择可以筛选出有效影响因子,进而提高估计的准确性和大数据模型的可解释性。当稀疏性特别高时,特征变量选择还能大幅度降低计算成本。在高维数据下Lasso方法在解决线性回归问题时会遇到计算时间和计算复杂度的问题。文本在第二章首先介绍了目前解决Lasso问题的一些优化算法。梯度下降法是一种利用局部信息进行迭代的一阶方法,但是需要迭代的次数过于庞大。在此基础上加入光滑和对偶的方法可以得到对偶锥的优化算法,相比一般梯度下降法能够得到更为有效和稳定的迭代算法。交替方向乘子法在海量数据情况下利用分布式凸优化的优点,对Lasso问题交替进行岭回归来达到加快收敛速度的目的。坐标下降法利用目标函数中优化子函数的想法选取最大下降方向,以达到减小计算时间和降低储存空间要求的目的。但是传统的优化算法在面对存储有限而数据量过大的情况时,仍然不能有效的进行回归和分类问题的分析。为此我们介绍了一种通过对样本空间进行分割的子集聚合中位数选择估计量的算法。这种算法能在样本量远大于机器存储量的时候对数据进行有效的处理和分析以达到线性回归分析的目的。针对特征量过大而超出机器存储空间的问题,我们首先介绍了一种基于贝叶斯的分裂合并算法,但是此方法不能保证筛选的效率。然后我们介绍了一种基于分组测试的并行特征选择算法,但是此种算法太依赖于特征组间相互独立这一个假设。最后我们介绍了去相关化特征空间分割算法,这种算法先将特征之间的相关性弱化进而对特征空间进行分割来实现变量筛选的目的。在一般线性回归模型中,Lasso方法在处理重尾问题时表现出不稳健的特性。但是分位数回归能不受误差分布的影响,进而得到更为稳健的回归模型。本文首先介绍了经典的分位数回归方法和一般的统计估计分治算法,但是这个算法不适用于当今的大规模数据集。然后我们介绍了基于机器存储有限的分位数回归线性估计算法。这个算法首先将样本空间进行分割,然后利用核函数对分位数回归进行光滑处理,最后将估计量转化为一个二次型问题,通过变型得到一个L1正则化带有惩罚项的估计量。这个算法能较好地解决海量数据情况下的分位数回归问题,并且将Lasso方法和分位数回归有效结合起来。最后我们受message算法和DECO算法的启发,在样本量和特征量均远大于存储空间时,提出了分位数回归中的样本和特征空间分割算法。这个算法结合了样本空间分割和特征空间分割的优点,在分位数回归中高效地进行变量选择和估计。我们还对这个算法进行了模拟实验,与在全样本下进行Lasso方法的结果进行了对比。从模拟实验结果可以看出我们的算法在切割次数合理并且样本之间的相关性很低的情况下相比于在全样本空间下进行Lasso方法要更为高效,并且在误差项为轻微重尾分布时依然表现稳健。但是当样本之间的相关性很高时,由于弱相关化步骤的不足导致我们的方法效果并不是很出色。虽然计算的结果更为出色,但是我们的算法相对于全样本下进行Lasso方法要耗时更长。这个的原因是我们的算法中弱相关化这个步骤需要耗费大量的计算时间。这个问题在后续的研究中可以通过算法的优化来得以解决。最后我们通过一个超导体临界温度回归问题的真实数据例子,展现了我们的算法在处理这个大数据问题时和XGB oost算法同样高效。在现实生活中,存在着大量的重尾实际问题,在高度重尾的情况下,我们的方法表现并不是特别良好。因此我们还需要在此算法的基础上继续探究样本空间分割和特征空间分割更为稳健的方法来适应当今大数据背景下的回归问题。