论文部分内容阅读
摘要:多元回归分析是确定几种变量间相互依赖的定量关系的一种统计分析方法,可用于预报、控制等问题,应用及其广泛。本文以2017年全国大学生数学建模竞赛C题为例,给出了几种常见的多元回归分析模型,并以赛题所给数据进行了计算比较。
关键词:多元线性回归;逐步回归;非线性回归;颜色;浓度
我们分别选取4个模型进行尝试,得到如图所示的交互式界面(图4),修改5个颜色读数即可得到相应的二氧化硫浓度预测值及置信区间。上述4个模型的到的剩余标准差分别为rmse1=17.8790,rmse2=7.5752,rmse3=6. 2120,rmse4=3.1501,显然,二次型回归模型剩余标准差明显小于线性回归模型,尤其是完全二次型,拟合效果最优。
尽管多元二项式模型能够更好地拟合二氧化硫浓度与5种颜色读数的关系,但是在处理实际问题时需要注意两点:
(1)在数据量相对较少时,多元二项式模型参数过多,容易造成过拟合,模型在训练样本中表现优越,但在测试样本中表现较差;
(2)在数据量较大、自变量过多时,由于模型复杂度高,占用大量资源,运行效率低。鉴于
模型三:逐步回归模型
在实际的回归问题中影响因变量的因素可能很多,我们希望从中挑选出影响显著的自变量来建立回归模型,而影响不显著的变量都不应选入模型,从便于应用的角度应使模型中变量个数尽可能少。这就涉及到变量选择的问题,逐步回归是一种从众多变量中有效地选择重要变量的方法。
逐步回归是实现变量选择的一种方法,基本思路为,先确定一初始子集,然后每次从子集外影响显著的变量中引入一个对y影响最大的,再对原来子集中的变量进行檢验,从变得不显著的变量中剔除一个影响最小的,直到不能引入和剔除为止。
在Matlab统计工具箱中用作逐步回归的是命令stepwise,它提供了一个交互式画面,通过这个工具你可以自由地选择变量,进行统计分析。如图5所示,依次加入颜色读数G与S后拟合优度R2逐渐增大,均方根误差RMSE逐渐减小,统计值F明显增大。最终的模型为:
C=1697.27-11.0551G-4.71764S
决定参数为:R2=0.8838,F=83.6981
相对于模型一与模型二,模型三的拟合效果一般,但在大数据面前,模型三只选取影响因变量显著的自变量,算法复杂度低,计算量明显降低,计算效率明显提高。
三、模型评价与改进
本文给出了三种常用的多元回归分析模型,三种模型都有各自的优缺点,多元线性回归,模型最为常见,也是应用最为广泛的一种,但模型的前提条件是自变量与因变量之间满足线性关系;对于非线性问题,可尝试多元二项式回归模型,该模型复杂度高,运行效率低,需要有足够的数据量才能达到很好的拟合效果;逐步回归模型能够选取主要的影响因素,忽略对因变量影响不显著的因素,能够提高算法的运行速度,但拟合效果相对较差。面对具体问题,首先应作出散点图,根据散点图判断自变量与各因变量之间的关系,然后选择相应的模型,但也要注意具体的实际要求,比如预测的准确度、运行效率等要求。
由于数据量太少的关系,没有将数据划分为训练样本和测试样本,本文缺少对所建模型进行验证。后续研究中可以考虑寻找更多数据,利用部分数据进行验证,评价模型的拟合效果。
参考文献:
[1]姜启源.UMAP数学建模案例精选[M].北京:高等教育出版社,2015
*作者简介:王春洁,男,汉族,山东临沂人,硕士,研究方向:非线性泛函分析。
*基金情况:嘉兴南洋职业技术学院“三个一百”工程教改课改课程(p30017jg055)。
关键词:多元线性回归;逐步回归;非线性回归;颜色;浓度
我们分别选取4个模型进行尝试,得到如图所示的交互式界面(图4),修改5个颜色读数即可得到相应的二氧化硫浓度预测值及置信区间。上述4个模型的到的剩余标准差分别为rmse1=17.8790,rmse2=7.5752,rmse3=6. 2120,rmse4=3.1501,显然,二次型回归模型剩余标准差明显小于线性回归模型,尤其是完全二次型,拟合效果最优。
尽管多元二项式模型能够更好地拟合二氧化硫浓度与5种颜色读数的关系,但是在处理实际问题时需要注意两点:
(1)在数据量相对较少时,多元二项式模型参数过多,容易造成过拟合,模型在训练样本中表现优越,但在测试样本中表现较差;
(2)在数据量较大、自变量过多时,由于模型复杂度高,占用大量资源,运行效率低。鉴于
模型三:逐步回归模型
在实际的回归问题中影响因变量的因素可能很多,我们希望从中挑选出影响显著的自变量来建立回归模型,而影响不显著的变量都不应选入模型,从便于应用的角度应使模型中变量个数尽可能少。这就涉及到变量选择的问题,逐步回归是一种从众多变量中有效地选择重要变量的方法。
逐步回归是实现变量选择的一种方法,基本思路为,先确定一初始子集,然后每次从子集外影响显著的变量中引入一个对y影响最大的,再对原来子集中的变量进行檢验,从变得不显著的变量中剔除一个影响最小的,直到不能引入和剔除为止。
在Matlab统计工具箱中用作逐步回归的是命令stepwise,它提供了一个交互式画面,通过这个工具你可以自由地选择变量,进行统计分析。如图5所示,依次加入颜色读数G与S后拟合优度R2逐渐增大,均方根误差RMSE逐渐减小,统计值F明显增大。最终的模型为:
C=1697.27-11.0551G-4.71764S
决定参数为:R2=0.8838,F=83.6981
相对于模型一与模型二,模型三的拟合效果一般,但在大数据面前,模型三只选取影响因变量显著的自变量,算法复杂度低,计算量明显降低,计算效率明显提高。
三、模型评价与改进
本文给出了三种常用的多元回归分析模型,三种模型都有各自的优缺点,多元线性回归,模型最为常见,也是应用最为广泛的一种,但模型的前提条件是自变量与因变量之间满足线性关系;对于非线性问题,可尝试多元二项式回归模型,该模型复杂度高,运行效率低,需要有足够的数据量才能达到很好的拟合效果;逐步回归模型能够选取主要的影响因素,忽略对因变量影响不显著的因素,能够提高算法的运行速度,但拟合效果相对较差。面对具体问题,首先应作出散点图,根据散点图判断自变量与各因变量之间的关系,然后选择相应的模型,但也要注意具体的实际要求,比如预测的准确度、运行效率等要求。
由于数据量太少的关系,没有将数据划分为训练样本和测试样本,本文缺少对所建模型进行验证。后续研究中可以考虑寻找更多数据,利用部分数据进行验证,评价模型的拟合效果。
参考文献:
[1]姜启源.UMAP数学建模案例精选[M].北京:高等教育出版社,2015
*作者简介:王春洁,男,汉族,山东临沂人,硕士,研究方向:非线性泛函分析。
*基金情况:嘉兴南洋职业技术学院“三个一百”工程教改课改课程(p30017jg055)。