几类高维纵向数据模型的变量筛选研究

来源 :首都经济贸易大学 | 被引量 : 0次 | 上传用户:xqjulia
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着实验手段的不断进步,数据获取愈发容易,使得数据量虽然巨大,但是结构复杂。庞大的数据蕴含丰富的信息,而结构复杂的数据又对统计方法提出了更高要求。特别是当下常见的高维纵向数据,既蕴含丰富信息,又结构复杂。此外高维纵向数据中经常出现删失、厚尾、带有组结构、协变量受污染等情况,处理难度更大。因此对高维纵向数据更进一步的发展的统计方法以有效提取信息具有重要的理论与现实意义。高维纵向数据自身的特点带来处理与模型推导、实际计算方面的困难,更进一步的,当高维纵向数据中出现删失、厚尾、协变量受污染、协变量间存在组结构等情况时,每种情况均会带来额外的处理困难。具体来讲,高维纵向数据自身特点带来的困难包括但不限于:高维纵向数据的维数高于样本量,因此低维方法,如最小二乘、极大似然、拟似然、伪似然与估计方程等传统方法不再适用,需要对这些传统方法进行改进以解决维数高于样本量的问题,因而带来计算和大样本性质证明方面的困难,且由于高维纵向数据中个体内存在相关性,处理独立数据的方法此时并不适合,因而需要加入处理组内相关结构的方法以提升估计效率。高维纵向数据中出现删失、厚尾、协变量受污染、协变量间存在组结构等情况时,带来的额外困难包括但不限于:分位数模型损失函数原点奇异,因而在推导大样本性质时如何避免遇到需要在原点处求导的困难;带有非参数项的模型需要样条近似或局部多项式估计,但这并不等价于将非参数模型完全变为参数模型,因而如何证明参数乃至非参数部分的相合性的困难;高维纵向数据中带有删失时需要进行加权从而进行纠偏,但如何加权既可纠偏又不损失纵向数据组结构的信息的困难;厚尾数据或协变量受污染的数据需要稳健估计,则如何给出双稳健估计方法的困难;协变量带有组结构时需要同时进行组间与组内相合的变量筛选等问题,但如何给出变量筛选方法,如何证明组间组内变量筛选相合性的困难等等。需要指出的是,当高维纵向数据模型中出现删失、厚尾、协变量受污染、协变量间存在组结构等情况中的一种或某几种时,不同情况组合之间,估计方法的给出、大样本性质的推导乃至计算估计量的算法的给出以及程序的设计均不能相互平推,在每种情况组合之下,估计方法的给出、大样本性质的推导、算法与程序的设计均是困难。针对以上问题,总体而言,本文给出了超高维纵向数据中存在厚尾且协变量受污染的高维纵向数据模型;超高维纵向数据中存在右删失以及模型中存在组结构的高维纵向数据均值、分位数、部分线性均值、部分线性分位数模型的估计与变量筛选方法,得到了估计量的大样本性质,并给出了计算估计量的相应算法,并进一步通过数据模拟和实证分析佐证所提方法的优越性。具体而言,针对超高维纵向数据中存在厚尾且协变量受污染的问题,研究了超高维纵向数据分位数回归模型,给出了加权自适应Lasso(WAR-Lasso)方法,解决了已有方法不能同时处理纵向数据组内相关性、分位数损失函数在原点处奇异且协变量受污染的问题,且WAR-Lasso方法具有双稳健性、变量筛选的相合性、非零参数估计的相合性。针对超高维纵向数据中存在右删失以及模型中存在组结构的问题,研究了带有组结构的超高维纵向数据加速失效模型(AFT模型),提出了二次推断函数自适应组桥(QA-gbridge)方法,解决了已有方法不能同时对于超高维纵向数据AFT模型中进行加权调整且不损失纵向数据个体内相关结构信息并同时进行组间组内(bi-level)变量筛选的问题,并提高估计效率,给出的相应算法计算速度快。QA-gbridge方法具有bi-level变量筛选相合性,参数估计相合性以及渐近正态性。针对超高维纵向数据中存在右删失、模型中存在组结构且含有非参数项的问题,研究了带有组结构的超高维纵向数据部分线性AFT模型,提出了纵向数据组桥光滑门限加权广义估计方程(LDGBW-SGEE)方法,解决了已有方法不能同时处理右删失和模型内存在非参数项并对参数的组结构进行bi-level变量筛选的问题。LDGBW-SGEE方法具有参数部分的bi-level变量筛选相合性,参数估计相合性,非参数部分估计的相合性,以及渐近正态性。针对超高维纵向数据中存在右删失、响应变量厚尾以及参数中存在组结构的问题,研究了超高维纵向数据分位数AFT模型,提出了自适应组桥惩罚分位数二次推断函数(QA-quan-gbridge)方法,解决了已有方法不能对于超高维纵向数据分位数AFT模型中存在厚尾数据并同时进行bi-level变量筛选并处理纵向数据个体内相关结构的问题。QA-quan-gbridge方法具有bi-level变量筛选相合性,参数估计相合性以及渐近正态性。针对超高维纵向数据中存在右删失、响应变量厚尾以及参数中存在组结构且模型中存在非参数项的问题,研究了超高维纵向数据分位数部分线性AFT模型,给出了分位数纵向数据组桥光滑门限加权广义估计方程(QLDGBW-SGEE)方法,解决了已有光滑门限广义估计方程方法不考虑组结构的问题,且已有方法不能同时处理非参数项,分位数损失函数在原点处奇异并进行bi-level变量筛选的问题。QLDGBW-SGEE方法具有bi-level变量筛选相合性,参数估计相合性以及渐近正态性以及非参数部分估计的相合性。
其他文献
随着市场化进程的加速,商业保险在推动经济发展,维护社会稳定方面扮演着越来越重要的角色。保险具有经济补偿、资金融通和社会管理的功能,是市场经济条件下风险管理的基本手段。一方面,商业保险业作为社会保障体系的重要组成部分,相比于社会保险更能满足人民群众多层次的保障需求,在帮助家庭降低未来不确定性、及时恢复生产生活秩序、维持社会稳定的过程中发挥了重要作用。另一方面,商业保险作为金融市场重要的融资工具,其发
学位
资源是设计财政政策和影响长期增长的一个基本要素,因为它们提供了足够的政府收入,增加了政府支出,影响了公共借贷。因此,了解财政变量对资源暴利的反应对于制定和形成经济政策至关重要,这些政策能够捕捉和管理这些不稳定的收入,促进长期和可持续的经济增长和发展。本文通过分析资源租金的财政效应,对资源与经济增长的关系进行了实证分析。我们的具体目标是确定非资源税收入、政府支出和公共借贷如何对增加的资源收入作出反应
学位
城市区域是指在一定的空间范围内由众多城市通过紧密的经济与交通联系形成的具有特定形态、结构和功能的一体化空间组织。本文聚焦于城市区域空间演化的过程与机制,着重探讨中心城市、都市圈和城市群之间的互动关系,从空间结构理论、演化阶段理论和演化动力理论等三个方面构建城市区域空间演变的理论框架与一般演化模型,提出形态与过程假说、门槛效应假说和融合机制假说,然后以长三角城市区域、珠三角城市区域和京津冀城市区域等
学位
以单宁酸为稳定剂合成单宁酸功能化铜簇(TA-CuCNs)。,由于TA-CuCNs在不同pH条件下发生质子化和去质子化,TA-CuCNs呈现激发依赖的荧光发射[1]。考察TA-CuCNs对四种革兰氏菌株(革兰氏阳性菌:金黄色葡萄球菌、枯草芽孢杆菌,革兰氏阴性菌:大肠杆菌、铜绿假单胞菌)的抑菌活性。结果表明TA-CuCNs的单宁酸功能基团和铜簇单元协同抑制革兰氏阳性菌的生长[2]。30μg mL-1
会议
现代区域发展必将是经济实体之间相互作用与博弈的结果,而区域发展不平衡问题在世界各国普遍存在,这也是中国经济发展的客观现象之一。自新中国成立以来,中国区域发展贯穿了一条由低水平均衡到非均衡发展、由非均衡到协调发展、再到强调高质量发展转变的主线,呈现出明显的阶段特性。受全球产业分工格局深度调整、国内外环境日趋复杂、地区热点时有起伏、不稳定性和不确定性明显增加等多重因素的影响,中国区域发展呈现更加复杂的
学位
外商直接投资(FDI)一直是整个非洲区域,特别是撒哈拉以南非洲(SSA)国家的主要发展动力之一。外国直接投资通过投资的跨国转移,实现了对东道国的外溢作用,促进了东道国生产效率和治污效率的提高。然而,在外商直接投资大量流入SSA国家的同时,该区域的二氧化碳(CO2)排放水平也在不断上升,原因就在于东道国对外商直接投资的环境监管不力。在发展中国家,地方政府倾向于以放松环境规制和监管力度,以吸引更多的外
学位
出口韧性在贸易高质量发展过程中扮演重要角色。文章通过真实出口贸易变化与预期出口贸易变化的比较测算2020年1月~2021年12月出口韧性,采用Mann-Kendall趋势检验、Kernel密度估计、标准差椭圆探究其时空特征,利用地理探测器分析时空分异的驱动因素。结果显示:自新冠疫情蔓延以来,中国经济基本盘承受住了超预期冲击因素的影响,出口贸易总体实现稳定增长,出口表现较强韧性。相比于出口恢复力,出
期刊
中国经济经过30多年的高速增长后,支持其高速增长的要素得到了充分释放,经济增长率逐渐下降,经济结构失衡、创新驱动不足以及经济质效偏低等问题愈发凸显,中国经济进入了转变发展方式、优化经济结构和转换增长动力的重大关口。基于中国当前所处关口以及社会主要矛盾的转变,站在新的历史方位上,以供给侧结构性改革为主线,以促进产业转型升级为重要抓手,推动经济高质量发展成为当前和今后一段时期确定发展思路、制定经济政策
学位
随着科学技术的发展,人们获取大规模数据越来越容易。然而,数据采集的过程由于受到多个因素的影响,如硬件设备、环境因素、异常操作等,采集到的数据不可避免地含有一些噪声,这些噪声远离真实分布,利用经典的降维算法分析这类含有噪声的数据时,难以提取稳健特征。为了克服数据中含有噪声的问题,通过用各种对噪声不敏感的范数替换对噪声敏感的范数,多种稳健降维算法相继被提出,如基于L1范数的主成分分析和线性判别分析等。
学位
改革开放以来,中国积极参与国际分工并已成为具备全球影响力的制造业大国,但在全球价值链体系中仍处于中低端位置。打破“中低端锁定”,实现从大到强、从规模成本优势向质量效益优势转变,离不开技术创新的内在驱动和有力支撑。随着“走出去”战略的实施,中国对外直接投资(Outward Foreign Direct Investment,简称OFDI)得到了较快发展,积极参与国际研发资源跨国流动并实现优化配置,成
学位