具有可延展性和解释性的多响应回归及其相关问题研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:unix365
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
区别于单响应回归,多响应回归是同时研究多个响应变量与多个自变量之间关系的回归方法,该方法可以利用响应变量之间的依赖结构实现降维,从而构建更准确、可解释的模型(区别于一些机器学习的黑盒模型,统计回归模型的解释性是指人类可以一致地预测模型结果的程度[84])。这类方法在包括动态定价策略、社交媒体营销和危机管理等诸多定量问题中都有着广泛的应用前景。然而,随着海量(超)高维度数据的激增,现有的多响应回归方法在统计的精确度、解释性以及计算复杂度方面都受到了影响。因此,发展具有延展性的多响应回归方法是必要的(所谓具有延展性的方法是指既能够处理低维度数据又可以处理高维度数据的方法)。本论文首先研究(超)高维数据情形下的多响应回归方法,紧接着研究包含测量误差情形下的高维多响应回归,最后研究数据来自异质性总体时的多响应回归,通过层层深入的方式完成三方面的研究内容。全文的具体章节安排如下:第一章介绍了本文的研究背景、现状、研究内容以及研究创新点。第二章提出了一种新的估计方法,称为序列可延展稀疏因子回归(SESS),用于恢复高维多响应回归中低秩且稀疏的系数矩阵。在回归分析中,我们发现联合低秩稀疏回归系数矩阵的恢复问题可以通过一般特征值分解过程转化成多个可并行计算且免于挑选参数的稀疏单响应回归问题,从而降低问题的复杂度,为高维多响应回归分析提供了新的见解。不管是一般特征值求解,还是单响应稀疏回归都是凸的优化问题,从而确保了计算的收敛性和稳定性。并行计算以及免于挑选参数加速了方法的求解。在一些常规的条件下,我们对所提出方法的有效性提供了全面的理论论证,包括估计、预测和秩选择的一致性。此外,通过数值模拟研究,我们验证了该方法的有效性。第三章加强和升级了第二章中提到的新方法,并命名为凸条件序列稀疏学习方法(COSS),用于解决自变量中存在测量误差的多响应回归模型的系数矩阵恢复问题。受到前述的序列可延展稀疏因子回归方法启发,我们将多响应回归问题转化成多个可以并行计算的含有测量误差的单变量响应回归。值得注意的是,这个转化步骤并不受到测量误差的影响,从而保证了第一步计算的精确度。其次,针对多个含有测量误差的单变量响应回归,我们巧妙地结合最优正半定矩阵投影技术,消除测量误差对单变量响应回归的影响,从而确保最终估计的准确性。另外,我们证明了COSS方法的估计以及预测的相合性。在此章节的最后,我们通过数值模拟验证了所提出方法的有效性。第四章,本文首先针对来自异质性多响应总体的观测数据提出了异质性多响应回归模型。其中,每个样本的异质性主要体现在截距向量上,即当样本属于不同的种类时,截距向量会不同。基于此模型,本文提出了一种新的估计方法,用于异质性多响应回归模型的系数矩阵恢复和子组区分问题研究。该方法通过惩罚彼此截距项的差异,从而达到压缩差异进而聚类的效果。不同于使用L1惩罚的压缩方法,本方法通过使用凹惩罚,减少估计的偏差,从而提高分组的准确性。通过增广拉格朗日方法,将不可分的两两截距项差惩罚转化成新的增广拉格朗日目标函数,并最终通过ADMM算法求解得到估计量。在本章中,我们通过建立估计的一致性,为所提出的方法提供了理论保障。数值模拟验证了该方法的有效性。在第五章中,我们总结了全文的研究内容,讨论了研究的不足之处并给出未来工作的展望。
其他文献
低碳能源是降低碳排放和可持续发展的重要方向,电化学储能作为其中重要的一环,其市场规模将越来越大。目前,以石墨为负极的锂离子电池容量逐步接近其理论极限,但仍无法满足市场对于更高能量密度储能的需求。用具有更低电势和更高容量的锂金属替代石墨作负极是发展下一代高能量密度锂电池的有效策略。然而,锂金属负极的商业化应用依然面临许多问题和挑战,比如,锂金属在循环过程中,由于其巨大体积变化,会导致固态电解质界面(
学位
地震波数值模拟是进行强地面运动模拟和地下结构成像的重要工具。强地面运动模拟和全波形反演中涉及大规模宽频地震波数值模拟,对计算资源需求量大。有限差分法是目前较为常用的地震波数值模拟方法。与其他数值方法相比,有限差分法较为简单高效。针对复杂模型,有限差分法采用的结构网格生成容易。同样由于采用结构化网格,有限差分法容易部署到大规模高性能计算平台,以提高计算效率。传统的有限差分法模拟采用均匀网格,网格步长
学位
有限差分算法可以简单高效地模拟二维/三维非均匀模型中地震波传播,在提出了基于应力-速度的一阶差分格式后得到了广泛的应用。当研究区域-全球尺度的地震波传播时,必须要考虑地球曲率的影响。虽然可以通过网格变形或者展平变换等方法转化计算,但是选用极坐标系(二维)或者球坐标系(三维)更为直接方便,因此很多工作基于极/球坐标系下有限差分算法进行。地形起伏会明显影响地震波传播。前人提出了多种方法在有限差分中处理
学位
近年来,水力压裂技术已经广泛应用于油气田开发过程中,尤其是对于储量巨大的非常规油气的开发,水力压裂已经成为必要的手段之一。微地震监测技术是在地面或者井下布设检波器来接收由于地下岩石破裂产生的微地震信号,通过对记录到微地震事件进行震源定位、震源机制反演等方面的研究,从而对水力压裂的效果进行评估。而通过地震学中震源定位的方法获取微地震事件的震源位置则是微地震监测的基本目标之一。在众多地震定位方法中,基
学位
39Ar是一种宇生同位素。由于它的来源比较单一、在大气中分布均匀且化学性质不活泼,因此是环境水样品的理想定年示踪同位素。39Ar的半衰期为269±8年,其定年范围约为50~1,800年,恰好填补了传统氚定年和14C定年的空档。39Ar独特的定年范围使其在冰川定年、洋流循环以及地下水研究中有着重要的应用。但是39Ar的自然丰度非常低(I.A.=8×10-16),分析环境样品中的39Ar对检测技术是一
学位
随着飞行工况的提高以及重复使用需求的进一步明确,主动冷却技术将成为推进系统内部和飞行器外部高热部位主要的热防护措施,考虑到在高马赫数飞行条件下引气气膜冷却与燃料再生冷却存在的冷却不足问题,本文进行了以液态水为冷却工质的复合冷却结构的机理研究,目的在于探索单一液态水工质复合冷却方式的传热特征及性能极限,为新型多工质复合冷却结构的设计提供参考。从冷却工质的热沉利用角度量化分析了气膜冷却应用中的气膜层隔
学位
自lin-4和let-7等小RNA在秀丽线虫中被发现以来,后续的研究揭示了小RNA广泛存在真核生物中,并在机体的生长、发育、生殖、遗传和免疫防御等方面行使重要功能。近些年来,随着越来越多新型的小RNA被发现,小RNA的分子功能及参与的生物过程也在不断拓展,其功能的实现方式也被不断揭示。对小RNA的研究,促进了研究人员对生命现象的理解,促进了生物技术的开发。本项工作中我们利用线虫筛选抑制siRNA生
学位
近年来,大数据技术在许多领域取得了显著成就。基于大数据的许多智能应用与服务被开发并广泛应用于各行各业,如语音识别、智能推荐、智能监控、自动驾驶、物体检测、交通流量分析、噪声监测、药物研发等。因此,对于基于数据的服务提供者来说,迫切需要对数据及数据产品进行有效质量分析和数据获取和交易机制。为了促进数据服务提供商和数据拥有者之间的数据流通,国内外出现了各种数据共享和交易平台。代表性的数据交易平台有国内
学位
量子强关联系统以其的复杂性而著称。对于许多量子强关联模型的物理性质,我们的理解仍旧非常有限。例如:高温超导的机理,自旋液体的存在性,量子临界点附近的性质,拓扑序的本质等。由于缺少理论上的通用处理方法,数值模拟方法对于理解量子强关联系统起到了重要的作用。量子强关联系统的基态常满足纠缠熵的面积定律。利用这一点,人们将发展了一个非常有用的数值模拟方法,即张量网络方法。张量网络方法大大减少了系统的自由度,
学位
地震波数值模拟作为可有效揭示地震波在复杂地球中传播特征的重要工具,是地震波成像和地震波形反演的基础,也是计算地震学的核心内容。随着计算地震学的深入发展,简化的介质模型已经不能完全满足研究需求,贴近真实地球的复杂介质模型逐渐被采用。现有的地震波数值模拟方法在处理复杂介质模型时面临着介质离散误差大、数值计算效率低和算法不稳定的挑战,这些通常是由模型中的固液界面、孔隙度、介质剧变面、地表低速风化层和强烈
学位