针对大规模高维数据的分拆再结合型统计推断方法

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:fanw06
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着生产生活和学术研究中数据的规模和维度越来越大,如何在尽可能减少计算量的前提下进行精确的统计推断,已经成为了一个值得关注的重要研究方向。应用除偏方估计对高维数据进行统计推断也是一个重要的研究课题,但是由于除偏方法跟传统正则化方法相比,要在除偏项上耗费更多的计算量,所以当数据的样本量和维度都显著增长的时候,直接对数据应用除偏估计来进行统计推断会耗费很多的时间和计算量。为了解决这个问题,我们在本文里采用分拆再结合的方法来减少除偏过程中所需要的计算量,进而提高除偏方法的计算速度,与此同时我们还保证了置信区间的精度使之和不进行分拆再结合方法的精度保持一致。综上所述,本文主要研究了在分拆再结合方法下的高维数据统计推断问题。首先,本文探讨了在高维随机设计下的除偏估计的渐近性质及置信区间,在此基础上给出了分拆再结合方法下的高维除偏估计量并给出了置信区间。为了在提高计算速度的同时保证估计的精度,我们给出的高维除偏估计量采用了新的形式,即用整体数据来计算初始估计量,对除偏项再使用分拆再结合方法,这种方法也说明了对于初始估计量和除偏项在样本量方面需要的条件是不一样的。在上述工作的基础上,我们又提出了一个精进版本的置信区间版本,它在计算速度保持一致的基础上要更加地精确,同时也确保了我们可以对更大规模的数据进行更多次数地分拆。在随机模拟中,我们比较了两种不同规模的数据在不同的分拆次数下置信区间平均覆盖率和置信区间长度以及计算速度上面的差异,结果证实了我们的结论,并且我们的精进版本具有良好的表现。在实际数据分析中,我们也比较了置信区间的精确度和计算速度,在证实了结论的同时还体现了分拆方法在统计推断中具有的稳健性。除此之外我们还提出了利用软阈值均值bagging估计量进行变量选择的方法并推导了其理论上的误差界,给我们的方法提供了更多的扩展应用的空间。其次,我们还建立了分拆再结合方法下的同时置信区间。我们分别用不同的办法建立了高维数据分拆再结合方法下的对有限元素集合的同时置信区间和对元素数量发散集合的同时置信区间。对于有限元素集合,我们基于分拆再结合理论的两个版本得出同时置信区间。对于元素数量发散的集合,我们采用了bootstrap程序辅助的方法得到。在详细介绍了 bootstrap辅助程序的同时,我们也提供了 bootstrap辅助程序的不同算法。在随机模拟中,我们同样也比较了两种不同规模的数据在不同的分拆次数下同时置信区间的平均覆盖率和置信区间长度。结果都证实了我们的同时置信区间的有效性和在计算速度上的优势。在实际数据分析中,我们也比较了置信区间的稳定性和计算速度,得到了和数据分析一样的结论。随机模拟和实际数据分析的结果都给我们理论的可行性提供了保障。
其他文献
海上溢油突发事件主要有海上石油开采井喷事故、海底输油管道破损溢油事故和海运船舶碰撞溢油事故等类型。随着经济的增长,我国对石油的依赖越来越强烈,石油进口量于2017年已
背景:心肌梗死患者的异常心肌纤维化会导致心功能异常及预后不良。越来越多的研究发现泛素蛋白酶体系统在纤维化的病理过程中起着重要作用。泛素羧基末端水解酶L1(ubiquitin
SETD2是哺乳动物细胞中主要催化组蛋白H3K36三甲基化(H3K36me3)修饰的甲基转移酶。H3K36me3修饰是从酵母到哺乳动物中最保守的表观遗传标记之一,其主要定位于基因的转录区域,
几丁质酶对于昆虫的生长发育至关重要,靶向昆虫几丁质酶的小分子抑制剂在害虫防治中具有潜在的应用。蜕皮过程中,参与昆虫表皮几丁质降解的几丁质酶主要有三种:ChtⅠ、ChtⅡ
本文主要探讨贺兰山野生大型真菌子实体形态多样性;根据宏观和微观特征编制贺兰山大型真菌的检索表;分析真菌的子实体宏观形态特征之间的相关性和子实体内孢子的微观形态特征
碳化硅(SiC)功率MOSFET具有高开关速度、高耐压、高温度耐受能力等特点,在高频大功率电力电子变换领域具有良好的应用前景。然而高速开关动作造成的脉冲电压、脉冲电流对MOSF
随着国内外地铁隧道建设项目的不断增多以及地铁网络的逐渐完善,如何针对地下工程建设过程中遇到的不良地质问题进行科学控制成为了重要研究课题。目前许多地铁隧道的修建需
植物乳杆菌作为一类公认安全的微生物,利用其抑制真菌特性替代化学防腐剂应用于食品生产加工,可极大的降低真菌污染几率、提高食品质量和保障食品安全。目前,植物乳杆菌抑制
自上个世纪90年代以来,基于性能的地震工程理论和抗震设计方法已被广泛接受,并逐步引入到各国相关工程抗震设计规范中。作为基于性能抗震设计中的重要组成部分——地震易损性
气溶胶广泛分布在大气中,其来源广泛,对于人类的呼吸健康和生产、生活以及地球的辐射传输起着至关重要的作用。特别是随着工业的迅速发展和人口的快速增加,使得人类活动产生