LARS诊断回归树

来源 :中国科学技术大学 | 被引量 : 1次 | 上传用户:xuebin0523
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
线性模型和决策树是目前各个领域应用最多的分类和回归方法。线性统计模型能够很好的拟合和解释变量之间的线性关系,并且模型结果易于解释,但是根据传统统计回归方法的特点,现实数据的分布与传统统计分析方法要求往往不符,真实数据服从理论上的正态分布或者其它分布,是很少见的,也是无法求证的;另一方面,传统线性回归算法很难对共线性,非线性数据,以及变量之前的复杂交互性进行很好的解释。而决策树算法的简单树结构对属性数据和非线性的交互数据有很好的解释能力,并且计算复杂度相对于统计回归算法大大减少,所以能够很好的克服上述缺点,因此将决策树和统计回归算法结合起来处理现实数据就是一种很自然的想法。这种就结合实际上是有效的结合了树结构和线性结构,这样使模型就能够很好的拟合和解释复杂数据。本文提出LARS诊断回归树(LDRT)的方法。 首先LDRT算法基于树结构诊断自变量与目标变量的线性关系,并依据结果把自变量分为四类n-variable,f-variable,s-variable和c-variable。然后LDRT运用GUIDE的生长初始树的方法建立初始树。GUIDE建树的方法能够无偏的选择变量,但是其剪枝和最优树选择的过程很繁琐并且会导致树不稳定。LDRT运用LARS算法估计原始树的内节点的目标效应,如果其效应被收缩到0就剪除其对应的树枝。这种方法能够同时完成剪枝和最优树选择,因此相对比较稳定。并且由于LARS算法的运行的高效性,LDRT大大的提高了训练的计算效率。 最后本文进行作了多个模拟数据实验,研究了LDRT的诊断能力的同时比较比较了LARS回归树和CART,GUIDE回归树的表现,发现不管从模型稳定性,预测精度还是运行效率LARS回归诊断树都比CART,GUIDE回归树算法要好。
其他文献
自从1948年F.B.Jones定义了集函数T并给出了一些相关的结论以来,许多人对它作了大量的研究,其中以SergioMaciǎs的研究最为突出.近年来,由于研究连续统的需要,人们也开始关注连续
从病人的基因组数据出发准确预测抗癌药物对个体的敏感性是实现肿瘤个体化医疗的核心步骤之一.目前,针对抗癌药物敏感性预测的模型均是利用不同的基因组信息建立回归或分类模型,采用机器学习方法进行预测.然而我们知道,不同的基因组信息之间存在很强的相关性,系统研究这些相关性关系,尤其是基因的共表达与抗癌药物敏感性的关系具有重要的理论意义.在本篇论文中,我们建立系统分析研究的方法来识别药物敏感性在基因表达、基因
虫洞问题对于经典引力理论和量子引力理论的研究都起着十分重要的作用。本文将系统地介绍宇宙学所需的微分几何学,微分几何现已成为研究时空结构的重要工具。同时本文也将叙述
本文主要利用扰动Lyapunov函数法,锥值Lyapunov函数法,分段连续Lyapunov函数法等不同方法,研究了脉冲混合动力系统的各种稳定性问题,并给出了关于它的稳定性的一些结果,而关于具有
选播(Anycast)是IPv6中的一种标准通信模型,可以实现一台主机与一组具有相同选播地址的目的主机中“最近”的一台主机进行通信(这组目的主机提供相同的服务)。选播服务的主要