论文部分内容阅读
异常点是统计诊断中一个很重要的概念。由于实际数据的复杂性,使得识别回归模型异常点的研究一直是个热点。异常点的识别和处理是统计诊断的一个重要内容,它进行的好坏也关系到整个诊断的过程,而识别的过程更是整个统计诊断的基石。其中很关键的一点是要知道异常点的概念、类型、区别以及它对回归系数的影响。本文就线性回归模型展开了对异常点的分析,在总结前人工作的基础上,进行了推广,得到了几个重要结论。本文首先介绍异常点的概念、成因及研究意义。第二章主要介绍了最基本的线性回归模型与最小二乘估计、投影矩阵和二次投影公式以及残差分析的基本概念和方法为后续问题的分析奠定了基础。帽子矩阵在异常点的分析中有着非常重要的作用,所以在第三章详细介绍了帽子矩阵的一些性质以及删除或增加观测值对帽子矩阵的影响。第四章是本文重点,首先给出了单个异常点的分类、区别与联系,并用实际例子进行了区分。接下来还给出了单个异常点的处理方法,介绍了一种新的方法能够识别出多个异常点。它的目的是找到一个划分,把坏点从观测点中划分出来。提出的新的方法不需要知道观测点中异常点的个数,但是可以选取一个显著性水平α,以识别观测点是否为异常点。最后利用均值漂移模型和数据删除模型研究两个具有某种相关关系的异常点对回归系数的影响,指出若因变量的多个观测值在同一自变量处发生均值漂移,且向上漂移量之和与向下漂移量之和相等,那么在相应的均值漂移模型中,回归系数的最小二乘估计恰等于在原来模型中的最小二乘估计,而漂移量的估计值分别为原模型中各自的残差。同时详细讨论了两个模型在异常点的检验上的等价性作用。