论文部分内容阅读
线性模型和决策树是目前各个领域应用最多的分类和回归方法。线性统计模型能够很好的拟合和解释变量之间的线性关系,并且模型结果易于解释,但是根据传统统计回归方法的特点,现实数据的分布与传统统计分析方法要求往往不符,真实数据服从理论上的正态分布或者其它分布,是很少见的,也是无法求证的;另一方面,传统线性回归算法很难对共线性,非线性数据,以及变量之前的复杂交互性进行很好的解释。而决策树算法的简单树结构对属性数据和非线性的交互数据有很好的解释能力,并且计算复杂度相对于统计回归算法大大减少,所以能够很好的克服上述缺点,因此将决策树和统计回归算法结合起来处理现实数据就是一种很自然的想法。这种就结合实际上是有效的结合了树结构和线性结构,这样使模型就能够很好的拟合和解释复杂数据。本文提出LARS诊断回归树(LDRT)的方法。
首先LDRT算法基于树结构诊断自变量与目标变量的线性关系,并依据结果把自变量分为四类n-variable,f-variable,s-variable和c-variable。然后LDRT运用GUIDE的生长初始树的方法建立初始树。GUIDE建树的方法能够无偏的选择变量,但是其剪枝和最优树选择的过程很繁琐并且会导致树不稳定。LDRT运用LARS算法估计原始树的内节点的目标效应,如果其效应被收缩到0就剪除其对应的树枝。这种方法能够同时完成剪枝和最优树选择,因此相对比较稳定。并且由于LARS算法的运行的高效性,LDRT大大的提高了训练的计算效率。
最后本文进行作了多个模拟数据实验,研究了LDRT的诊断能力的同时比较比较了LARS回归树和CART,GUIDE回归树的表现,发现不管从模型稳定性,预测精度还是运行效率LARS回归诊断树都比CART,GUIDE回归树算法要好。