论文部分内容阅读
线性回归模型作为统计学科中最基础、应用最广泛的数学模型,是探求变量间关系、分析数据有效性的有力工具。本文主要围绕:线性回归模型参数估计方法、线性回归模型异常点检测方法两部分展开研究,针对各自的研究方法给予了理论上的改进与程序上的实现。 回归模型建立的目的在于得到变量之间的相关关系,即参数估计。经典的参数估计思想是使估计偏差的平方最小,称为最小二乘估计。在Gauss-Markov假设下,最小二乘估计是无偏估计类中方差最小的估计方法。当自变量之间存在某种近似的线性关系时,会导致最小二乘估计的均方误差很大。前人针对传统方法的不足,提出了主成分估计与岭估计。本文对上述方法进行了综合与改进,提出了K综合主成分估计。该方法将特征值矩阵Λ按照矩阵XTX特征值的大小划分为Λ1和Λ2两部分,并在包含少部分信息的Λ2中加上K=diag(kq+1,…,kp),其中常数kj≥0,j=q+1,…,p.然后给出了K综合主成分估计在均方误差意义下优于最小二乘估计以及广义岭估计的条件。传统的岭估计只考虑对特征值加同一个常数k的情况,未考虑对不同特征值加不同常数的情况。本文又提出了函数型岭估计,在特征值矩阵Λ1中加上关于K的函数矩阵F(K)=diag(f1(k1),f2(k2),…,fq(kq)),其中已知函数fi(ki),i=1,…,q满足一定的非负与可微性条件。理论上证明了函数型岭估计在均方误差意义下优于主成分估计和最小二乘估计的条件,以及在广义均方误差意义下优于最小二乘估计的条件。 回归模型建立时需要剔除与原定模型偏差大的数据,即异常点检验。本文对异常点检验的常用方法进行了细致的讨论与研究。在数据删除模型中,删除一行或多行样本数据,会遇到设计阵X为非列满秩的情况。而最小二乘估计是基于设计阵列满秩的假设下进行参数估计的。若不满足,则矩阵XTX无法求逆。为了克服这种情况,本文考虑利用广义逆的思想,通过奇异值分解的方法来求矩阵XTX的广义逆;在均值漂移模型中,t统计量是判断异常点的常用统计量。本文利用MATLAB软件编程,随机生成了自变量和误差项的样本数据,根据给定的回归模型计算因变量的值,得到参数的最小二乘估计。并利用对样本点施加“扰动”的思想,对t统计量的灵敏度进行了模拟评估;在异方差模型中,本文将经典的Lagrange乘子法引入异常点检验。将齐方差性假设作为加权最小二乘估计的约束条件,根据Lagrange乘子法的核心思想将此约束最优化问题转化为无约束最优化问题,不再需要构造检验统计量和计算分布函数。最后,本文通过实例进行了方法实现。