论文部分内容阅读
高维数据模型选择在统计学中占有非常重要的地位,但传统的逐步回归法存在一些不足。Tibshirani,R.(1996)针对这一问题提出了LASSO方法,该方法很好的克服了传统方法的一些不足.但LASSO方法在高维数据模型选择问题上也存在一些不足,因此很多学者提出了改进,如:BICC和BICP方法(黄达,王汉生,2009),支持向量机(SVM)方法。
本文讨论了两种高维数据模型选择的方法,第一种,候选变量p远大于样本量n并且真实变量d小于样本量n的情况,文中简称为高维数据模型Ⅰ;第二种,候选变量p远大于样本量n并且真实变量d大于样本量n的情况,文中简称为高维数据模型Ⅱ。
本文将在前人的基础上,对于高维数据模型p》n的情况下进行模型选择。首先给出了高维数据模型的概念及其分类;其次给出了一些高维数据模型选择的方法和算法;接着具体针对高维数据模型Ⅰ的两种情况线性模型和非线性模型,用不同的方法进行数值模拟和效果比较;然后着重研究了高维数据模型Ⅱ,通过数值模拟,展示了LASSO方法,BICP方法与BICC方法的效果比较。结果显示,逐步回归与BICC的结合效果最佳,优于LASSO与BICP。最后给出了进一步需要解决的问题。