大数据情形下充分降维的统计计算及理论研究

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:moniter2001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
维数灾难(The curse of dimensionality),最早是由理查德·贝尔曼在1996年提出的,是指不同学科领域中由于数据维数的增加导致计算量呈指数增长趋势而造成的各种问题。在不丢失信息的前提下将高维数据映射到低维空间是一种用来应对维数灾难行之有效的方法。充分降维正是在这样的理念框架下展开的,通过寻找自变量的线性组合来完成数据降维,得益于其不依赖模型假定和结合了统计量充分性概念的特征,该方法在过去的三十年间一直是国内外统计学者们的研究热点。而大数据时代带来的不仅仅是高维数据,甚至是海量的高维数据,充分降维可以在数据分析的维度方面发挥作用,但是在海量数据的处理上则需要借助新兴的计算技术。本文致力于研究大数据情形下充分降维的统计计算及理论推导,使用现代计算技术和统计方法来拓展充分降维方法。本文的第一部分将考察使用正交化EM算法来实现一族充分降维估计方法。这族充分降维估计量通过构建基于不同转换函数的响应变量来估计降维空间,在进行样本估计的时候等价于用转换后的响应变量对预测变量做回归求解最小二乘,当样本量巨大的时候,估计量的求解将相当耗时。正交化EM算法在处理大规模的最小二乘问题时具有较大的优势,其本质是一种迭代EM算法,可以帮助减轻很多计算压力。本文实现了将该算法在充分降维估计中的应用,并且证明了正交化EM的估计序列可以收敛到其相对应的估计值。此外,本文引入了最小绝对收缩和选择算子LASSO惩罚项来进行变量选择。模拟研究和实证分析验证了该方法在很好地估计降维空间的同时大大降低了运算时间。充分降维领域仍有很多其他类型的方法也同样面临计算资源有限的问题,但是有一部分不能写成最小二乘的形式,因而不能使用正交化EM算法,于是我们使用了分布式运算作为替代。分布式运算将大量的数据分割成小块,由多台计算机分别计算再上传运算结果,最后将结果统一合并得出数据结论。通过整合多台普通计算机的计算资源,分布式运算的运行能力甚至可以超越单台超级计算机。本文的第二部分以一个适用于多维响应变量的充分降维方法为例,阐述了如何用分布式运算来节约计算资源,确定了其渐近性质并证明了该方法的有效性。模拟研究和实证分析也验证了基于分布式运算来估计降维空间非常高效,解决了在样本量较大的时候单台计算机运行内存不够的问题,在不增加对超级计算机投入成本的情况下保证了估计精度。在基于分布式运算的充分降维方法的研究中我们观察到,虽然该方法得到的估计量的渐近性质跟使用全样本一致,但在估计精度方面还是有着轻微的差距,其原因在于数据分块的过程会导致部分信息的缺失,并且在不同的计算机之间并没有信息传输。为了弥补这部分的缺失,论文的第三部分从经验似然方法可以使用辅助信息这一灵活运用着手,使用了以估计方程形式出现的辅助信息,阐述了具体将经验似然引入在充分降维中的流程,确定了其渐近性质,并证明了该方法可以提高降维空间的估计精度。另一方面由于实际中不是总能找到关于总体的辅助信息,因此可以简单地使用全样本来获得辅助信息的估计,本文探讨了使用该估计来替代真实的辅助信息的情形下,使用分布式运算进行充分降维是否能够同样更好地估计降维空间。模拟研究和实证分析表明使用经验似然方法来利用两种类型辅助信息的充分降维方法的确改善了分布式运算的估计精度,弥合了控制计算成本和提高估计精度之间的落差。
其他文献
2018年11月5日科创板在上交所设立并且首次试点注册制。科创板的提出将在经济上支持高科技创新公司的发展。在该板块中上市的企业大部分是研发费用高、未来盈利不确定的企业,对此类企业估值常采用以市场法、成本法和收益法为代表的传统绝对估值法或者以市盈率为代表的相对估值法,由于这些方法只考虑了现有资产创造的现有价值而忽略了企业投入资金带来的潜在价值,从而造成企业价值的低估和错误的对此类企业进行定价,所以,
学位
伴随涉环境投资争端的频繁出现,国际投资仲裁中的环境问题凸显。投资者、东道国、仲裁机构对环境问题立场不一。不同主体对环境问题各持己见,固然有其背后利益驱使,但国际投资仲裁无法超越环境问题本身的特有属性。环境问题的公共属性对国际投资仲裁提出了更高的透明度要求;环境问题的科学属性将使其对专家报告给予更多信赖,对举证作出特殊安排。规制环境问题的国际环境条约软法的总体属性,将导致法律适用阶段的环境问题被忽视
学位
艾滋病(Acquired Immune Deficiency Syndrome,AIDS)是一种危害性极大的传染病,由人类免疫缺陷病毒(Human Immunodeficiency Virus,HIV)引起.近几年,我国艾滋病新发病例和死亡病例都呈现出明显的上升趋势.因此,需要加大对艾滋病的定性、定量研究,为艾滋病的防治工作提供理论基础和数量依据.相比确定性模型,随机HIV/AIDS模型能够更好地
学位
杂粮作物在我国有悠久的耕种历史,种植面积更是广泛地分布于全国各地,杂粮在我国粮食供应总量里占有很大的比重,杂粮产量的稳定与增收对我国粮食安全有极其重要的作用。随着我国经济水平的发展,人民对日常饮食质量的要求日益提高,杂粮口味的多样性和良好的保健功能越来越受人们的青睐,对杂粮的需求也日益增多,所以实现杂粮增产增收意义重大。优良的种子对农业增产有非常重要的作用,但是优良品种在推广之前要进行大量的小区田
学位
目前,抑郁症已成为全球最常见的疾病之一。预计到2030年,抑郁症或将成为世界第一大负担疾病。现下抑郁症在全球不断蔓延,形势日趋严峻,除了其所凸显的公共卫生难题外,还因其社会属性而受到社会各界的广泛关注,尤其是大众媒体。作为社会现实的“传声筒”,媒体在传播抑郁症信息方面发挥着不可替代的作用。因此,本文从话语分析的角度出发,以抑郁症报道为研究对象,分析报纸媒体中关于抑郁症报道的话语特征、变迁及成因,透
学位
随着海洋经济的快速发展,海洋工程用钢性能要求越来越高,尤其是低温冲击性能。本课题利用稀土金属元素的特有性能,依据“氧化物冶金”技术思路,以EH36船板钢为研究对象,探索钇基稀土对船板钢夹杂物行为规律及组织性能作用机理为目标,采用热力学和动力学计算分析、第一性原理计算和实验室实验以及工业性试验研究相结合的技术手段,重点开展了稀土在钢中的夹杂物生成热力学分析、稀土对船板钢中夹杂物行为规律探究、稀土对船
学位
人心是最大的政治,党群关系密切与否直接关系到党和国家的盛衰兴亡。中国共产党与人民群众之间的关系具有阶段性,在革命时期初步发展,社会主义建设时期呈曲线发展,大有高低不断交替之势,困局产生于文革时期,逐步修复于文革结束以后。党的十八大以来,面临愈加繁变的内外部环境,以习近平同志为核心的党中央对党群关系理论进行了系统升华,包括当下发展形势的总结,以及在实践中不断积累的心得,这一系列举措让群众的获得感有所
学位
随着信息技术的快速发展,电子设备的散热需求迅速增加。近年来,拓扑优化在散热领域迅速发展,为电子设备的热管理提供了一种新思路。拓扑优化方法可以在限定散热材料体积或质量的情况下,获得最佳的散热效率,降低设备内部温度,保证运行的稳定性和寿命;或者在规定的散热目标下,获得最优的散热结构,降低设备工程设计的难度。本文针对便携式电子设备的被动式和主动式散热,分别建立了二维优化模型,采用基于变密度法的拓扑优化方
学位
唐卡是藏族文化的重要组成部分。量度、色彩、仪轨是体现唐卡艺术价值的显著标志,更是唐卡的基本理论和主要艺术特色。唐卡在长期的发展进程中量度、色彩与仪轨形成了一套理论体系,体现在固定的方式、方法、规则之中。这些内容营造了唐卡绘画艺术的理论特色。虽然其重要性不言而喻,但是目前学术界对量度、色彩和仪轨等组成的理论体系尚未进行系统研究。因此,有必要进一步梳理和阐释量度、色彩、仪轨及其相关工序的形成、步骤、仪
学位
刘湛恩是中国近代著名的教育家、社会活动家、杰出的民主爱国人士。他一生坚持“教育救国”的理想,在服务基督教青年会期间,他组织参与平民教育、公民教育、职业教育中国近代三大教育运动,同时也被卷入了非基督教运动的漩涡。1928年,刘湛恩出任沪江大学首位华人校长,旨在打破教会大学封闭的藩篱,引导基督教教育中国化改革。他不仅调整沪大迅速适应中国社会,而且使沪大为中国社会发展和抗日救亡培养了许多杰出的人才,成为
学位