论文部分内容阅读
回归分析是研究变量之间相关关系的一个有力工具.通过回归分析,人们能够解释一些现象,并对未来的发展趋势做出预测,为决策者提供参考.许多生物医学、经济管理、工农业等领域的一些现象都可用回归模型来描述.为了更好地拟合数据,回归模型已由初期的参数回归模型发展到半参数回归模型.半参数回归模型既含有参数分量,又含有非参数分量,不但保留了参数回归模型易于解释的优点,而且还有广泛的适应性,同时避免了非参数回归模型的“维数灾祸”问题.半参数回归模型不仅有实际的应用背景,而且有广泛的应用前景和极大的应用价值.近几十年来,半参数回归模型得到众多统计学者的广泛关注,已成为统计界的热门研究课题之一.在一些现代试验和调查研究中,经常会出现高维数据、测量误差数据、删失数据、缺失数据和纵向数据等复杂数据.在进行统计分析时,如果忽略这些数据的内在结构将会降低统计推断的效率,甚至导致错误的结论.因此,对复杂数据的统计分析和建模显得尤为重要.目前,复杂数据下半参数回归模型的研究仍有许多开放的统计问题,故研究复杂数据下半参数回归模型的统计方法与理论具有重要的理论意义和实践价值.本文主要在高维数据、测量误差数据和缺失数据等复杂数据下,研究半参数回归模型的估计和检验问题.具体地讲,研究内容分为以下六个方面.(1)对超高维数据下稀疏部分线性变系数模型,主要研究同时变量选择和未知系数估计问题.首先,利用B样条基近似表示未知的非参数系数函数.在预先知道哪些变量重要,哪些变量不重要的先验信息情况下,理论上证明所得Oracle估计的收敛速度和渐近正态性.进一步,提出一种非凸惩罚最小二乘估计方法,并在适当的正则条件下证明所得估计的Oracle性质.此外,还讨论数值实现中的优化算法问题和数据自适应的调节参数选择问题,并通过Monte Carlo数值模拟和乳腺癌数据集的实例分析验证所提方法良好的有限样本性能和实用性(2)对半参数部分线性变系数模型,研究模型随机误差的方差估计问题.首先,利用局部常数化未知回归函数系数,将半参数回归模型转换为高维线性模型.进而构造基于最小二乘法的方差估计量,并证明所得估计量渐近服从正态分布.为了减少最小二乘法估计量的均方误差,本文还提出基于高维线性模型的一类惩罚估计量.最后,通过数值模拟验证提出的两种估计方法的有限样本性质.(3)对超高维数据下半参数变系数模型,利用B样条基逼近未知系数函数研究模型随机误差的方差估计问题.首先证明伪相关性在非参数回归模型下比线性模型下更加地严重,然后讨论一种二阶段自然的误差方差估计的渐近性质.进一步,基于确定性独立性筛选和交叉验证再拟合技术,提出一种精确的误差方差估计方法.并在一定的正则条件下,建立所提出估计量的相合性和渐近正态性.模拟研究表明所提出的方法具有较好的有限样本性质.(4)对高维数据下线性EV模型,主要考虑高维回归系数的置信区间构造问题.为了消除测量误差的影响以及惩罚估计的有偏性问题,提出了一种新颖的去偏校正估计量,并在温和的正则条件下,证明了所得估计量的渐近无偏性和渐近正态性.根据理论结果,可以构造回归系数渐近精确的置信区间以及进行假设检验.通过数值模拟研究了所提方法的有效性.(5)对于高维数据下部分线性变系数EV模型,考虑参数分量的变量选择问题.基于局部线性估计方法提出惩罚剖面偏差校正最小二乘估计方法,并在温和正则条件下证明解的渐近性质,包括估计量的收敛速度和渐近正态性.进一步证明在适当选择罚函数和惩罚参数的情况下所得估计量的Oracle性质.此外,还讨论调节参数的选取问题以及优化问题的算法问题.数值模拟研究验证所提变量选择方法较好的有限样本性能.(6)对缺失数据下部分非线性模型,主要考虑非参数分量的拟合优度检验问题.根据矩方法,提出两个检验统计量来研究所考虑的检验问题,理论上证明所提出检验统计量在原假设成立条件下和局部备择假设成立条件下的渐近分布.理论结果表明所提方法的检验p值可很容易地确定,可渐近精确地控制犯第一类错误的概率.同时,对于基于局部平滑的检验方法,所提方法能够以最优速度区分不同于原假设的局部备择假设.通过数值模拟和一个实际数据集的建模分析研究所提方法的有效性与实用性。