论文部分内容阅读
对于线性模型的准确的统计推断和预测,正确且精确的参数估计是很重要的。在线性模型中,未知参数的一般估计步骤都是基于高斯-马尔科夫定理。这一定理确保了最小二乘估计量是具有最小方差的线性无偏估计量。一般线性模型的主要假设之一是:预测变量之间是线性独立的。但是,在线性回归中预测变量经常出现“几乎线性相关”的情况,这就是所谓的预测变量共线性问题。这一问题的来源在很多线性回归分析的书中都有很好的记载,主要可以概括为四类:应用的数据收集方法,模型或者数据总体的约束,模型的指定和过定义模型。理解共线性的来源对于数据的分析和相应模型的解释是很有帮助的。通常来说,在很多不同的领域(比如无线通信系统和纵向数据分析),强相关的预测变量是很常见的。例如,天线阵列中具有一定天线间距的两个信号是相互关联的。纵向数据分析通常涉及对一个对象进行多次测量。在这种情况下,同一个对象的多个测量值是相关的变量。当用作是预测变量时,这些具有强相关性或极强相关性的变量引起多重共线性。这种多重共线性问题导致这些强相关预测变量的无偏估计量具有异常大的方差,甚至错误的符号或者很大的绝对值,从而产生误导性的统计预测和推断。关于诊断多重共线性存在的方法,检验预测变量的相关系数矩阵是一个很简单的方法。通过观察相关系数矩阵的非对角元素,我们可以很容易找到一对强相关的预测变量。可惜,这个方法只对发现一对预测变量之间的强相关性有帮助。如果多个预测变量是高度相关的,则可以用预测变量的方差膨胀因子(VIF)来识别和消除潜在的冗余变量。一个或多个大的方差膨胀因子(VIFs)说明存在多重共线性。此外,相关系数矩阵的特征系统分析是一种有效的多重共线性诊断方法,奇异值分解是一种类似的方法,它利用方差分解比例给出了关于特征向量贡献于多重共线性的更具体的信息。检验相关系数矩阵的条件数和条件指标也是衡量多重共线性存在的一种好方法。其他诊断方法有时也有用,如:系数矩阵的行列式和系数的符号或大小。由于强相关预测变量的最小二乘估计量的不准确性,研究者们想出了一些典型的方法作为弥补,例如岭回归、偏岭回归、贝叶斯估计和主成分回归分析。可是,这些方法有一些不足。例如,岭回归同时缩小了所有参数,不论它们中的一部分是否相关。岭回归以增加偏差为代价来实现稳定性,并且人为主观地选择惩罚参数。而且,所有这些已经存在的方法都要比普通最小二乘回归更加复杂。尽管由于多重共线性,强相关预测变量的个体参数估计是不精确的,具有很大的方差,甚至错误的符号或者很大的绝对值,但是,令人惊讶的是,这些强相关变量的某些线性组合,被称为群效应,是可以被精确估计的。有了这一知识,我们着重关注这些线性组合的准确估计,而非个体参数/效应的估计。与岭回归、贝叶斯估计、主成分回归分析等处理由强相关预测变量引起的多重共线性的方法相比,我们利用多重共线性对参数估计的影响,精确估计这些变量的群效应。在理论和数值上,我们致力于找到线性模型中强相关预测变量的最优群效应和可估计群效应,以及它们之间的关系。通过对均匀相关模型(预测变量之间的相关系数都相等)的理解,我们建立了预测变量呈指数型相关的线性模型,称为指数相关模型。在多信道接收的无线通信系统中,相邻子信道间的相关性要高于远端子信道间的相关性。这可以用我们提出的指数相关模型来描述。利用这一优势,指数相关模型经常被用于各种无线系统的通信问题和性能分析。拥有刻画预测变量之间相关性衰减的优点,指数相关模型也是具有强相关预测变量的一般线性模型的近似,因为这些预测变量之间的相关系数的绝对值都接近于1。在均匀相关模型中,强相关预测变量的平均群效应是归一化群效应类中最优的群效应。此外,其他的可估计群效应全都在平均群效应的周围。基于从均匀模型中得出的有趣结论,我们致力于发现由指数型相关的预测变量引起的多重共线性对参数估计的影响,并寻找这些预测变量的最优群效应和可估计群效应,以及这两个群效应之间的联系。理论上,我们推导出了指数相关模型中个体参数的最小二乘估计量的方差,并给出了详细证明。我们还证明了指数型相关的预测变量的个体最小二乘估计量具有异常大的方差,尤其是在预测变量极度相关的情况下,然而对应的可估计群效应的方差却很小。更重要的是,我们找到了指数相关模型中的最优群效应并且证明了其最优性。对于一个指数相关模型,我们从理论上和数值上都可以得出结论:预测变量之间的相关性越强,其个体的最小二乘无偏估计量的方差越大,而相应的无偏最优群效应和可估计群效应的方差越小。我们的数值例子还表明:所有可估计群效应,如平均群效应,的权重向量,都在最优权重的一个邻域内。这意味着其他的可估计群效应都是在最优群效应的一个小邻域内。这一邻域随着相关系数的增大而变小。令人惊讶的是,这些最优权重有一些有趣的性质:它们都是对称的,并且是接近于平均权重的,尤其是当预测变量之间的相关系数很大时。从数值结果来看,所有的可估计群效应都是渐近最优的;当预测变量之间具有极强的相关性时,可估计群效应具有几乎相同的值和很小的方差。特别地,平均群效应总是可估计的和渐近最优的。为了补充和方便比较,我们还可视化了均匀相关模型中最优群效应和可估计群效应之间的关系。尽管研究者们已经有过一些讨论了,但是没有一个生动形象的方式来表示和解释这种关系。通过可视化均匀相关模型和指数相关模型中最优群效应的邻域,我们更容易发现邻域与预测变量之间的相关性的关系本质。不出意外地,可估计群效应在最优群效应的一个小邻域内,这个领域随着预测变量之间的相关性增强而越来越小。最优群效应和可估计群效应具有重要的应用价值和意义。第一,它们对于参数的估计和推断意义重大。例如,如果最优群效应是显著的,我们可以拒绝组内所有参数都为零的原假设,得出组内至少有一个非零参数的结论。第二,最优群效应是精确的,可用于根据已建立的模型做可靠的预测。第三,基于其它可估计群效应与最优群效应的联系,我们可以找到这些可估计群效应。最后,一个可估计群效应可以用于降低维数。具体来说,如果一个由p个强相关的预测变量组成的群效应是可估计的,那么它将参数空间降成了这一空间中的一条线。我们的数值结果还表明了多重共线性的局部性质,原因在于它对不相关的个体参数的最小二乘无偏估计量的方差影响甚小。这一局部性质可用来估计强相关预测变量的个体参数。主要思想是:将这些变量的精确的线性组合作为变量的约束条件。由于最优群效应的精确性,我们可以寻找接近于真实值的参数估计量,计算其到原点的距离,将距原点最近的参数估计量作为真实参数值的所有可行估计量的下界,然后找到所有的可行估计量。从而,基于这些可行的个体估计量所组成的区域和精确的最优群效应的约束,我们可能可以精确地估计线性模型中的强相关预测变量的个体参数。数值结果表明:指数相关模型所使用的方法和得出的结论是适用于一般的线性模型的,因为当预测变量之间的相关系数趋近于1时,前者其实是后者的一种近似。估计强相关预测变量的群效应是一种创新,它充分地利用多重共线性,而不是避免或者弥补。在不失预测和推断的准确性的前提下,这一方法更容易解释、实行和做推断。因此,估计强相关预测变量的群效应可能可以作为处理线性模型中多重共线性的补充方法。