论文部分内容阅读
可加模型是统计建模中的重要工具,该模型忽略了交互效应对响应变量的影响,把模型假设为多个一元函数的和,从而避免了非参数估计的“维数祸根”问题,在生物医学,计量经济学,社会科学等很多领域,得到广泛的应用.此外,在实际的数据分析过程中,常常会遇到缺失数据,纵向数据,测量误差数据及带有离群点的数据等复杂数据.复杂数据下的统计建模及统计推断问题已经成为统计学的前沿问题之一.因此复杂数据下可加模型的统计推断具有理论意义和实用价值.本文主要研究了复杂数据下一类可加模型的统计推断问题,研究的模型包括可加模型和部分线性可加模型.首先利用中心化的B样条基对模型中的非参数函数进行展开,再构造损失目标函数或者估计方程去估计参数分量及非参数函数,并研究相关估计的大样本性质,除此之外,还采用了惩罚估计的方法,获得参数分量及非参数分量的收缩估计.在复杂数据下可加模型的研究中,我们改进了现有的方法,推广了已有的结果,提出了一类可加模型估计及变量选择的方法.论文从以下的几个方面进行研究.对纵向数据下的可加模型,考虑了模型选择及变量选择问题.结合中心化B样条基函数展开与二次推断函数的方法,对可加函数中非参数函数分量收缩达到变量选择的目的.由于模型的可识别性,若二阶导数收缩到零,此时非参数部分函数只能是线性函数或者是零函数,对可加函数的二阶导数进行收缩,因此可以选择协变量进入线性部分或者非线性部分,这就同时执行了变量选择和模型选择.在一定的正则条件下,证明了该模型选择与变量选择的相合性.模拟研究说明了在有限样本下该方法的有效性.在响应变量随机缺失下,考虑了可加模型的估计及变量选择问题.首先采用中心化B样条基展开的方法,在完整数据下构造估计方程,利用缺失数据填补的方法,构造了填补的估计方程.在填补过程中,由于需要估计一个高维的非参数函数,遭遇了“维数祸根”问题.为了克服这个困难,我们提出了边际填补估计方程与极大相关填补估计方程两种方法,给出了两种方法下非参数函数的估计,并证明了估计的大样本性质.模拟研究表明该估计方法是可行的.其次,采用光滑阈值的填补估计方程方法进行变量选择,在选取合适的平滑参数下,变量选择程序是能相合地选择出真实的模型.模拟研究表明该变量选择方法的精度较高,由于采用了光滑阈值的方法,避免了求解凸最优问题,减少了计算负担.在协变量线性部分带有测量误差的数据下,考虑了部分线性可加模型的估计.本文采用了一个偏差校正的两阶段估计方法,利用中心化B样条基函数近似非参数函数,构造参数分量纠偏的目标函数,得到参数分量的纠偏估计及非参数函数的暂时估计,再利用后移算法的思想,把参数分量的估计及非参数函数的暂时估计代入回归模型,利用核估计得到每个非参数函数的估计.两步估计的目的是提高估计精度且可以获得非参数函数估计的渐近分布,在一定的正则条件下,可以证明参数分量及非参数分量估计的渐近正态性,以及非参数函数估计的最优收敛速度.模拟研究表明在有限样本下两阶段估计提高了的估计精度.当模型误差是厚尾分布的时候,数据中出现很多离群点,考虑了部分线性可加模型的稳健估计.本文采用了中心化的B样条基近似的方法,利用M估计,选取一个稳健的损失函数构造目标函数,得到参数分量及非参数函数的稳健估计.在一定的正则条件下,证明了参数分量估计的渐近正态性及非参数函数估计的收敛速度.由于采用了稳健的损失函数有效的降低了离群点的影响,与传统的最小二乘方法相比估计的精度明显提高,模拟研究也验证了这个结论.