基于拆分策略的稀疏降秩回归估计方法

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:pjlkj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多响应变量回归是一种重要的统计学习框架,其在自然语言处理、推荐系统、生物数据聚类等诸多领域得到了广泛应用。区别于单响应变量回归,多响应变量回归使用相同的一组自变量对多个响应变量建模,进而去估计参数矩阵。然而在当今的大数据背景下,庞大的样本量、纷繁复杂的变量种类给计算效率、参数估计相合性以及模型可解释性带来了前所未有的挑战。尤其是在高维多响应变量回归中,自变量和响应变量的规模都非常大,需要估计的参数矩阵规模也格外庞大,设计一种计算高效并且估计准确的统计方法已经是一个亟待解决的问题。本文对高维多响应变量回归问题进行了探讨,分别考虑了行稀疏的参数矩阵和行列均稀疏的参数矩阵两种多响应变量回归模型。与之对应地,本文提出了两种计算高效的参数估计策略,并且给出了相应的估计误差分析。首先第1章分别从噪声累积,伪相关性以及计算效率三个角度,简要介绍了高维数据给统计分析带来的挑战。随后介绍了在参数稀疏的模型假设下,利用正则化惩罚技术的统计估计方法在高维统计中所取得的理论和算法方面的进展。在第1章的最后介绍了高维多响应变量在近期所取得的成果,并指出关于高维多响应变量在参数估计的相合性分析以及算法设计上还有亟待解决的问题。在第2章中我们考虑参数矩阵行稀疏的结构,介绍了一种计算高效的估计方法,称为PEER,用以估计大规模多响应回归的低秩且行稀疏的回归系数矩阵,其中响应和预测变量的数量都可以是高维的。受稀疏因子回归的启发,我们将多响应回归转换为一组并行的单变量响应回归,从而降低单个问题的计算复杂度,并且能够通过并行计算加速求解。在一些常规条件下,我们证明了 PEER在估计,预测以及变量选择上有良好的收敛性。此外额外的数值模拟结果表明,PEER在估计、预测、计算效率以及变量选择方面优于现存的几种方法。此外,除上述行稀疏的低秩矩阵结构外,行列均稀疏的结构在模型估计中也很常见,例如稀疏的大尺度矩阵分解就是现代统计学习中的基本技术之一。具体地,稀疏奇异值分解和它的变体已经被应用到多元回归、因子分析、生物聚类、向量时间序列建模等其他统计模型中。这种双稀疏分解的吸引力在于它能够发现高度可解释的样本与变量间或自变量与因变量间的潜在关联网络。然而现存的大部分方法或者是缺少理论支持,或者是计算效率低下,这使得它们不适用于大规模数据的研究。因此第3章介绍了一种估计行列双稀疏的单位秩稀疏矩阵的算法(CURE)。该算法受分阶段估计方法的启发,在给定的增量步长下逐步增加参数模型的复杂度以此得到关于参数矩阵的一系列估计(解路径),并且这一组解对应于一个惩罚参数的序列,因此该算法适用于利用信息量准则调试参数的策略。并且在该章节中我们证明了当增量步长趋于零时,CURE的解能够收敛到分量坐标意义下的最小值点,同时还给出了算法在每步更新中的计算复杂度。在此章节的最后,关于双稀疏单位秩矩阵估计的数值模拟验证了 CURE算法能够收敛到分量坐标的最优点。在第4章中我们介绍了一种将一般的多重秩结构的双稀疏矩阵估计问题拆分成多个单位秩矩阵估计的问题,以此将第3章中的CURE算法推广到一般的行列双稀疏系数矩阵估计问题。并且在本章节中我们介绍了序列拆分和基于初始估计的并行拆分两种策略,同时给出了两种拆分策略的统计收敛率保障。从理论分析上看序列拆分策略由于不需要初始估计,所以相对于并行拆分方法需要的理论条件更弱。另一方面序列拆分的估计方法每一步估计都依赖于上一步的估计结果,因此序列拆分的估计方法存在误差累积的弊端。与之相反并行拆分的策略将原始问题拆分成了多个并行子问题,该组子问题能够同时求解,相互之间的求解是独立完成的,因此避免了误差累积的问题。最后本章节的数值模拟验结果验证了相应的理论结果,此外我们将本章介绍的估计方法运用到了基因性状位点分析中,所得结论验证了方法的有效性。最后在第5章中,我们探讨了分阶段估计策略的不足以及自适应选取步长在单位秩约束下的重要性以及难点。同时指出了分阶段估计策略与理论分析中存在隔阂,填补算法解和理论解之间的统计性质的隔阂是未来值得探讨的问题。此外本章还指出关于高维矩阵分解的统计推断方案仍然缺少充分的理论支持和文献探讨,构造特征向量/潜在因子的统计量也是一个值得研究的问题。
其他文献
2012年大型强子对撞机(LHC)实验发现Higgs玻色子,使得粒子物理领域的标准模型获得了前所未有的成功。标准模型不但在实验上验证了其所预测的全部基本粒子,并且成功的解释了大量的实验数据。即便如此,自然界仍存在一系列基本的科学问题无法得到合理解释,如宇宙中物质与反物质的不对称性、不同代基本粒子的质量等级差异、暗物质和暗能量的本质等。由此,标准模型被认为并非是物理学家们追寻的最终理论,自然界必然存
学位
人类基因组大约含有20000多个编码蛋白质的基因,然而它们只占约2%的序列。基因组中98%的非蛋白质编码序列也被称为非编码区,其中绝大部分可以被转录为非编码RNA,它们构成了物种之间最主要的差别。由DNA、蛋白质、非编码RNA和小分子组成的分子调控网络蕴含着生命活动的基本规律,决定了细胞的命运。目前已知有大量疾病相关的突变都发生在非编码区。与非编码RNA相关的研究处于生命科学的前沿领域,充分体现了
学位
在经济金融和生物医学等领域的数据分析中,需要处理的响应变量往往取值为正.由于乘积回归模型其响应变量是非负的,成为研究这类数据集的重要统计模型.乘积回归模型又称加速失效时间模型(AFT),是生存分析的重要研究对象.乘积回归模型不仅可以研究协变量是向量的形式,同时也可以处理协变量是函数型的数据.回归模型一般以绝对误差为基础,建立估计方法,研究理论性质.然而在一些实际应用中,比如金融数据,人们往往更关心
学位
随着数据挖掘和存储技术的进步,越来越多的数据能够被获取。一方面,数据规模的激增使得研究变量的个数快速增长,各变量之间的关系也愈发复杂,形成了错综复杂的网络关系。通过对图模型结构的学习的来揭示众多变量之间所隐含的底层网络结构可以为研究者们提供更多有用的信息,在很多实际应用中具有重要的现实意义。另一方面,面对大规模的数据,假设所有的数据服从同一分布,或者具有相同的结构并不合理。实际上,对于一组大规模的
学位
大气污染作为中国十大环境问题之首一直受到广泛关注,其对大气质量、气候变化、人类健康有着显著的负面影响。地球大气中广泛存在的生物源挥发性有机物(BVOCs)是导致大气污染的重要前体物之一。在各种BVOCs中,异戊二烯和单萜烯类物质的含量最为突出。研究发现,在部分地区,一种类异戊二烯物质,2-甲基-3-丁烯-2-醇(MBO232)的浓度会达到异戊二烯的4-7倍,并且其在白天的排放量比单萜烯类物质高1-
学位
噪声问题已成为日常生产生活中的一个重要问题。对结构进行声学优化设计,能够有效提高其降噪性能,具有重要的实际意义。本文主要开展了结构声学优化分析,发展优化算法,运用等几何边界元法进行结构优化及内外表面吸声材料分布的拓扑优化研究,运用细分曲面法提高计算精度,并应用于道路声屏障、汽车内声场、消声器、潜艇、飞机等的优化设计,提高其降噪性能。论文的主要内容如下:1.基于非均匀有理 B 样条(non-unif
学位
<正>蔡宇冬和郑茵联系时,自称朱大师,从未提过自己的真名。他先收了郑茵100元给她算八字,然后提出,要超度郑茵流产的孩子的话,需要一笔压香钱,做法事的服务费和购买贡品的钱需另外计算“刘希婷最近心情可差了,你和她见面别提钱的事。”郭士坤到了河北省唐山市后,来接他的“冷哥”是这么嘱咐他的。
期刊
致密储层在全球油气资源中占比较高,随着油田开发技术的提高,开采低渗乃至特低渗储层中蕴藏的石油已具有工业价值。实现致密储层的高效开发需要应用专门的油藏数值模拟技术。目前商业软件不能准确描述我国致密油藏非线性渗流规律,并且存在裂缝处理方面的缺陷,亟需完善。对致密储层而言,其孔径在微纳米数量级,其间渗流往往表现出非线性特征,传统的线性达西定律已不能准确描述。要完成致密油藏数值模拟,需要建立合适的非线性渗
学位
液滴操控技术在现代工业生产体系中发挥着十分重要的作用,例如在微流控技术,表面自清洁技术和表面热传输性能优化等领域。传统的液滴操控技术尽管发展十分成熟,但也存在部分缺点,例如无法在复杂精密的环境中进行液滴操控,而新兴的利用非接触性马朗戈尼效应进行液滴操控的技术能够克服此类问题,因此引起了广泛的关注,但对于其中原理的揭示则普遍缺乏定量的研究,在应用层面的研究也相当匮乏。本文从实验角度出发,结合理论分析
学位
椭圆曲线在密码学上的应用主要分为:椭圆曲线密码体制、基于双线性对的密码体制和基于同源的后量子密码体制。这三类密码体制的基本运算是标量乘和双线性对,目前计算标量乘最快的方法是Longa和Sica(ASIACRYPT 2012)的4-GLV分解,计算双线性对的主要算法是Miller算法(JOC 2004)。计算4-GLV分解系数可以约化成求四维格(下文简称4-GLV约化格)的一组短基。目前求4-GLV
学位