论文部分内容阅读
当今,高维复杂数据在各个科学领域广泛出现,这就要求统计学家寻求新的统计建模方法.处理高维数据的一个潜在难点是如何解决预测变量之间的多维共线性.偏最小二乘(PLS)回归是传统多元线性回归的推广,非常适用于具有强相关性数据的统计分析处理.偏最小二乘在建模过程中采用信息综合和筛选技术,从原有变量中提取若干对系统最具解释能力的新成分,然后再利用这些新的综合变量进行建模,可以说偏最小二乘是多元线性回归,主成分分析和典型相关分析这三者的综合.本文利用随机模拟的数据及云南省电力数据,从偏最小二乘的建模原理、模型求解、模型算法、算法模拟、参数调节、数据分析等方面对偏最小二乘模型展开了详细的研究和探讨,并利用交叉验证、均方差等准则对多元线性回归和偏最小二乘模型进行了综合比较,数据分析结果表明当预测变量之间存在较强的共线性时,偏最小二乘具有较高的优越性.本文的另一个研究重点是稀疏偏最小二乘(SPLS)回归.由于偏最小二乘的每个新成分都是原来所有预测变量的线性组合,当预测变量数较大时,这会给模型解释带来负面影响,也不利于最重要预测变量的寻找.稀疏偏最小二乘是偏最小二乘的改进,它能在偏最小二乘的基础上对估计系数进行收缩,并使那些较小的系数(绝对值意义下)恰好收缩到零,从而使与之对应的变量能够从模型中剔除.本文研究了稀疏偏最小二乘算法和实现,并采用类似于研究偏最小二乘的思路,对多元回归、偏最小二乘和稀疏偏最小二乘模型进行了全方面的比较,并就云南省电力数据,找出了影响电力消费的最重要因素.模拟数据回归结果表明:偏最小二乘回归及稀疏偏最小二乘回归模型可以有效解决变量之间存在共线性的问题.相比之下,稀疏偏最小二乘回归模型的拟合效果更好,模型预测精度更高.对云南省电力消费影响因素进行的研究表明:云南省的电力需求随着云南省经济的发展,社会消费品零售总额的增长以及固定资产投资的增加在不断增长.云南省的城镇化进程同样也拉动了全社会对电力的需求,居民消费价格指数的升高也对电力需求有正向的拉动作用,但作用不大可忽略.