论文部分内容阅读
随着生产生活和学术研究中数据的规模和维度越来越大,如何在尽可能减少计算量的前提下进行精确的统计推断,已经成为了一个值得关注的重要研究方向。应用除偏方估计对高维数据进行统计推断也是一个重要的研究课题,但是由于除偏方法跟传统正则化方法相比,要在除偏项上耗费更多的计算量,所以当数据的样本量和维度都显著增长的时候,直接对数据应用除偏估计来进行统计推断会耗费很多的时间和计算量。为了解决这个问题,我们在本文里采用分拆再结合的方法来减少除偏过程中所需要的计算量,进而提高除偏方法的计算速度,与此同时我们还保证了置信区间的精度使之和不进行分拆再结合方法的精度保持一致。综上所述,本文主要研究了在分拆再结合方法下的高维数据统计推断问题。首先,本文探讨了在高维随机设计下的除偏估计的渐近性质及置信区间,在此基础上给出了分拆再结合方法下的高维除偏估计量并给出了置信区间。为了在提高计算速度的同时保证估计的精度,我们给出的高维除偏估计量采用了新的形式,即用整体数据来计算初始估计量,对除偏项再使用分拆再结合方法,这种方法也说明了对于初始估计量和除偏项在样本量方面需要的条件是不一样的。在上述工作的基础上,我们又提出了一个精进版本的置信区间版本,它在计算速度保持一致的基础上要更加地精确,同时也确保了我们可以对更大规模的数据进行更多次数地分拆。在随机模拟中,我们比较了两种不同规模的数据在不同的分拆次数下置信区间平均覆盖率和置信区间长度以及计算速度上面的差异,结果证实了我们的结论,并且我们的精进版本具有良好的表现。在实际数据分析中,我们也比较了置信区间的精确度和计算速度,在证实了结论的同时还体现了分拆方法在统计推断中具有的稳健性。除此之外我们还提出了利用软阈值均值bagging估计量进行变量选择的方法并推导了其理论上的误差界,给我们的方法提供了更多的扩展应用的空间。其次,我们还建立了分拆再结合方法下的同时置信区间。我们分别用不同的办法建立了高维数据分拆再结合方法下的对有限元素集合的同时置信区间和对元素数量发散集合的同时置信区间。对于有限元素集合,我们基于分拆再结合理论的两个版本得出同时置信区间。对于元素数量发散的集合,我们采用了bootstrap程序辅助的方法得到。在详细介绍了 bootstrap辅助程序的同时,我们也提供了 bootstrap辅助程序的不同算法。在随机模拟中,我们同样也比较了两种不同规模的数据在不同的分拆次数下同时置信区间的平均覆盖率和置信区间长度。结果都证实了我们的同时置信区间的有效性和在计算速度上的优势。在实际数据分析中,我们也比较了置信区间的稳定性和计算速度,得到了和数据分析一样的结论。随机模拟和实际数据分析的结果都给我们理论的可行性提供了保障。