论文部分内容阅读
变量选择在统计建模过程中是极其重要的问题,但传统的变量选择方法却存在一些不足。尤其是当p相对于n较大、某些变量之间的相关性又较强时,有些对预测影响较小、甚至没有影响的变量也被选入了多元回归方程中,从而使估计和预测的精确度下降了。针对这一问题,Daye and Jeng (2009)提出了Weighted fusion[1]变量选择方法,该方法很好的克服了传统方法的一些不足。在本论文中,我们利用Daye and Jeng (2009)提出的Weighted fusion变量选择方法,对数据进行变量选择。计算加权fusion的估计和预测变量之间的样本相关系数,利用加权fusion惩罚函数,得到L2范数下fused lasso估计。通过对“森林中蝙蝠活动”这个数据做分析,进行变量选取。首先分析研究了预测变量之间的样本相关系数,得到了很多相关性很强的变量,因此,不能用传统的方法去选择变量。接下来展现了响应变量与预测变量之间的散点图,分析散点图,得到了响应变量与预测变量之间的直观联系。再利用加权fusion,按变量的重要性将预测变量进行排序。这样,就可以为我们计算变量选取的个数提供方便。最后,使用AIC、BIC准则选择变量。实际数据和实例表明,加权fusion可以有效的进行变量选择,提高预测的精度。