论文部分内容阅读
本论文以纵向数据(经济学中称面板数据)为研究对象,以现有统计理论和方法为基础,主要研究非参数和半参数模型的结构识别和有效的估计,并进一步研究高维纵向数据模型的降维推断问题. 纵向数据是对多个研究个体或实验单位在不同时刻进行重复观测所得的一种复杂数据类型,它广泛存在于生物学、医学、经济学、生态学、心理学和行为科学等诸多学科领域.固定个体重复观测的相依性是纵向数据的主要特征之一,这种相关结构的准确识别是合理建模和有效推断的前提.本文第二章从实例数据出发,针对不规则的纵向观测提出时间自适应的自回归误差过程来刻画个体内部的相关性,然后基于半参数profile技术建立回归参数和自回归系数的联合估计,并提出非参数函数的两阶段局部多项式估计.这样既规避了直接估计协方差矩阵的多参数问题和矩阵求逆的不稳定性,又因为完全基于观测数据结构建模且没有任何样本信息损失,从而提高了估计的有效性,这一点无论在数值模拟还是在实例数据CD4的对比分析中都得到了很好的验证. 在某种意义上,模型的误差结构影响统计推断的优劣,而均值结构决定着推断的对错,所以两种结构的准确识别是进行合理建模和有效推断的根本.基于第二章的自回归误差过程,本文第三章围绕变系数模型分别提出误差和均值结构的识别方法.首先,在均值结构已知时,通过前一章的方法类似可得到拟合误差,基于此建立Wald检验从而确定自回归误差结构的阶;其次,若解释变量与响应变量的关系完全未知,本章初步设定模型均值部分为可加函数类结构,然后通过模型转化成为变系数结构,再借助smoothly clipped absolute deviation(SCAD,Fan and Li,2001)惩罚函数识别其中的零变量、常值变量以及函数变量.同时,本章对于上述过程得到的相关估计都建立了相应的大样本性质。 个体效应是研究对象所独有的且不随时间改变的特质,通常在实际问题中无法观测,针对这种个体异质性的合理建模为研究个体特征提供了有效途径.本文第四章研究固定效应下动态部分线性可加模型的GMM估计和变量选择问题.首先利用一阶差分移除固定效应,并基于样条近似和工具矩阵建立参数和非参数部分的GMM估计.然后,在此基础上提出SCAD-GMM方法来识别显著的解释变量和动态结构的阶数.最后对剔除冗余变量后的重建模型进行估计,建立了与显著变量完全已知时相同的渐近分布,即具有Oracle性质. 计算科学的迅猛发展使得高维纵向数据在诸多领域应运而生,但高维模型的不适定性无疑对现有统计方法提出了很大挑战,当然也为当代统计研究提供了新的平台.本文第五章通过两步过程识别高维变系数模型的稀疏结构,并进一步研究预设信息下高维模型的变点推断问题.具体地,首先对样本进行均匀划分,然后借助Zhang and Zhang(2014)的低维投影方法在分段区间上建立逐段scaled Lasso(Sun and Zhang,2012)纠偏估计.进而,针对预设变量的对应参数建立广义似然比来识别系数函数中可能存在的结构变点,且当变点存在时研究高维模型的变点推断问题.此外,在稀疏的高维模型中建立了所有相关估计量的渐近性质,大量的数值试验结果也表明所提方法的可行性和理论结果的正确性.