纵向数据的维数折叠与充分变量选择

来源 :上海师范大学 | 被引量 : 1次 | 上传用户:longjayliu1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
纵向数据融合了截面和时间序列的信息,在生物学、医学、金融学和经济学等领域受到人们的广泛关注,而飞速发展的科技手段使人们常常能搜集到大型的纵向数据集,数据维数的膨胀给纵向数据的统计分析带来了很大的困难和挑战.充分维数折叠方法不仅能保持自变量的矩阵形式,而且不会损失回归信息,是对矩阵值型自变量进行有监督降维的一种有力手段.本文基于距离协方差函数提出了一种无模型的纵向数据充分维数折叠降维方法.当结构维数已知时,理论上证明了该降维准则能从总体上找到中心维数折叠子空间,即中心降维子空间,实现时间和变量两个维度的降维.在样本给定时,将降维方法转化为带约束的高维优化问题,理论上证明了中心维数折叠子空间的估计具有(?)-相合性.计算上,通过引入Kronecker乘积假定,将带约束的高维优化问题转为低维问题,能使用成熟的非线性优化算法快速求解.为确定结构维数,本文提出了一种BIC型的方法,并证明了结构维数确定的相合性.当自变量比较多时,为挑选出重要变量,本文借鉴惩罚的思想,提出了一种充分变量选择方法.不同于文献中已有的基于纵向数据的变量选择方法,该变量选择方法无须对模型进行假定,避免了因模型假定不恰当而无法进行合理的统计推断,该无模型的变量选择方法是纵向数据领域的首次尝试.当调整参数恰当选取时,理论上证明了该变量选择方法具有Oracle性质.计算上,本文提出了一种BIC型的方法,来自适应地选取调整参数,并证明了调整参数选择的相合性.为了考察所提充分降维方法(DF-DCOV)在有限样本下的表现,本文考虑了两个模拟例子:非平衡的带连续型响应变量的纵向数据和平衡的带离散型响应变量的纵向数据.模拟结果表明,相对于文献中的降维方法,无论是否满足Kronecker乘积条件,DF-DCOV方法都能更准确的估计中心维数折叠子空间,且在结构维数确定上有更高的准确度.进一步的,基于本文提出的充分变量选择方法(DF-PDCOV)进行变量选择,结果表明,充分变量选择后不仅提高了对中心维数折叠子空间估计的准确性,而且能以很高的准确度选出真正有用的变量子集,从数值上验证了变量选择的相合性.最后,本文用梅奥诊所的原发性胆汁肝硬化数据中提取出的平衡纵向数据样本进行实证分析,将自变量和时间点的维数均降到了 1.结果表明,自变量中的碱性磷酸酶和凝血酶原时间均与血清胆红素显著正相关,白蛋白与血清胆红素显著负相关,与医学结论一致;通过充分变量选择筛选出三个自变量,并将数据投影到低维空间,表明该方法能同时实现充分维数折叠与变量选择,并保留数据的原有信息.
其他文献
神经元的同步放电活动是神经系统进行接收信号、传递信号、整合信号的主要方式。近些年来,引发了科研人员的广泛研究。神经系统中充满了噪声,噪声的存在影响了神经振子集群的
目的:对述情障碍与抑郁之间的关系进行验证,以此为理论基础设计一套针对述情障碍干预的团体心理辅导方案,探讨基于述情障碍干预设计的团体心理辅导对于缓解高中生抑郁状况的效果。方法:采用随机抽样的方法,随机抽取郑州市某高中高一至高三年级的学生共1196人参与问卷调查,采用TAS-20量表、CES-D量表评估研究对象的述情障碍以及抑郁得分,采用团体心理辅导干预的方法对高中生的抑郁状况进行干预,并对干预效果进
蛋白质在人类的生命活动中起了十分重要的作用,可是天然的蛋白质未必能完全满足人类的需求。通过重组和突变等方法可以产生大量新的蛋白质,根据蛋白质的属性可以从中筛选出对人类有利的蛋白质。因此,蛋白质属性预测在相关研究工作中至关重要。直观上,我们可以进行生物实验以测定蛋白质的属性,但这种方法时间和金钱上的代价都太大,基本上不可能对新产生的蛋白质一一测定。但是,我们可以相对容易地获取新蛋白质的氨基酸序列。因
含低价金属中心的金属?金属键化合物因其新颖的结构和反应活性而备受关注,而选择合适电子和空间效应的配体是合成这类化合物的关键。本文报道了邻苯二胺(H2L)配体在经脱质子化
长沙五一广场东汉简牍是近些年公布的研究秦汉史的新材料,简文中主要是长沙郡及临湘县相关的司法行政文书。长沙五一广场东汉简牍中涉及的司法官吏可分为郡、县、乡三级,其中,郡级和县级官吏可分为长吏和属吏。郡长吏有郡守与郡丞,郡守作为一郡之长,对司法案件有很大的处理权限,但实际更多地侧重于司法覆核和督察。郡丞协助郡守行政,督促司法的行事;郡府列曹属吏中,贼曹主盗贼事,同时涉及逮捕和审问犯人的工作,辞曹审理案
本论文在岩心观察描述的基础上,通过对测井、录井、地震以及区域地质资料的综合分析,对轮南地区古近系EⅠ、EⅡ、EⅢ三个油组进行标准层的识别和标定、精细地层划分与对比、
现在微波器件结构和参数的设计基本依赖于电磁软件仿真模拟。虽然通过全波电磁仿真可以获得它的性能参数,但是这种方法不仅复杂并且计算成本很高,所以研究人员提出用机器学习方法来解决微波器件的求解分析问题。常见的机器学习方法有支持向量机(Support Vector Machine,SVM)、高斯过程(Gaussian Process,GP)、人工神经网络(Artificial Neural Network
船舶海水管路系统是指从舷外泵取低温海水,输送到中央冷却器来冷却动力系统装置、调节压载水舱的管道,正如人体血脉一样维系船舶的“生命力”。然而极地航行时,船舶因动力装置运转、流体脉动以及破冰连续冲压撞击等因素不可避免会产生振动现象,其中低频次周期性振动能量大、传播远,会导致海水管内流场变化。此外,很多细小的硬质海冰颗粒透过滤器被吸入海水系统,形成海水-冰晶两相流动,容易引发管道冲蚀磨损现象。振动壁面与
前期研究表明在拟南芥中通过增强MAN3基因表达,可以增强甘露聚糖水解酶的活性,使细胞壁中的甘露糖含量增多,从而增强植株对重金属镉的积累和耐受。已有文献报道在辣椒中,MNB1
混凝土结构经常在水环境中工作,如大坝、多雨地区的铁路轨道板。环境中的自由水会因为水压和毛细作用进入混凝土内部进而形成湿态混凝土。水环境中工作的混凝土结构在其工作