论文部分内容阅读
摘 要:在对因变量为定性变量的的回归分析中,传统的方法包括Logistic回归模型、Probit模型等广义线性模型,同时,在机器学习法中也产生了诸如决策树回归、支持向量机等方法,此类方法的优点在于可以处理任意类型的数据以及在短时间类处理大型数据源。本文的目的在于面对定性变量的回归分析中,比较传统模型(以Logistic模型为例)与机器学习法(以决策树为例)两者的优劣。
关键词:Logistic回归模型;机器学习法;决策树回归;R软件
一、Logistic模型
Logistic回归(logistic regression)是研究因变量为二分类观测结果与影响因素(自变量)之间关系的一种多变量分析方法,属概率型非线性回归。一般Logistic模型为:
其中p为事件发生的概率。
Logistic回归参数的估计通常采用最大似然法。最大似然法的基本思想是先建立似然函数与对数似然函数,再通过使对数似然函数最大求解相应的参数值,所得到的估计值为参数的最大似然估计值。最大似然估计具有的一致性、有效性和正态性都是一些很好的统计性质,样本数据越大时其估计值就越准确。
由于Logistic回归模型就是基于二项分布族的广义线性模型,因此在R软件中,Logistic回归分析可以通过调用广义线性回归模型函数glm()来实现。
二、决策树回归模型
机器学习中,决策树是一个预测模型;它代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出,若欲有复数输出,可以建立独立的决策树以处理不同输出。 数据挖掘中决策树是一种经常要用到的技术,可以用于分析数据,同样也可以用来作预测。
决策树分析主要有两种,一种为分类树分析,它是当预计结果可能为离散类型(例如三个种类的花,输赢等)使用的概念;另一种为回归树分析,它是是当预计结果可能为实数(例如房价,患者住院时间等)使用的概念。
三、两种模型效果比较的实证分析
下面采用爱尔兰教育水平数据来检测logistic模型与决策树模型在对含有名义变量的回归中的效果,本数据来自http://lib.stat.cmu.edu/datasets/irish.ed
(一)数据说明
该数据包括500个样本,六个变量,变量分别为:
变量1为性别,以V1表示;变量2为一项测试的得分,以V2表示;变量3为获得的教育水平,以V3表示;变量4表示是否获得毕业证书,其中1表示否,2表示是,以V4表示;变量5表示被调查者的职业社会地位得分,以V5表示;变量6表示学校类型,以V6表示。
其中变量2、变量5为定量变量,而变量1、变量3、变量4、变量6为定性变量,这里对变量4作回归分析,即建立是否获得毕业证书的回归模型,显然,这里的变量4即V4为二元变量,回归模型适合用logistic模型以及决策树来建立。下面分别用R软件建立logistic模型与决策树模型。
(二)数据预处理
这里的预处理包括对数据缺失值的处理以及对某些变量的合并。
可以看到在V3及V5中出现了最小值0,显然V3与V5数据中出现了缺失值。对数据缺失采用R软件中的missForest进行处理。
对missForest处理后的数据作缺失值检测,显示缺失值为0,缺失值处理成功。
下面对处理后的新数据检测是否有做合并处理的必要,数据合并是对某些对因变量相关性很强的变量内部值作合并处理,这一点在作logistic回归中影响不大,但在作决策树回归时会由于变量相关性太强容易导致数据不能充分利用。下面尝试对V4作决策树:
显然,以V3作决策变量时,对V4的判定相当完美,可以说V3与V4是等同的,意味着在作决策树回归时产生了“过拟合”现象,即在样本内拟合相当完美,但在样本外拟合效果会很差。在尽量不删除变量的原则下,对V3中的11个水平数作一些合并,具体合并原则为:将未完成当前学制的(原类2、类3、类6、类7、类10)归为类2,完成当前学制的(原类4、类5、类8、类9、类11)归为类3,原类1任为类1,这样合并以后的V3只有3个水平。
(三)建立Logistic回归模型
R软件中通过glm函数直接建立logistic回归模型,另外这里采用逐步回归,回归结果如下
其中,V1在逐步回归中被淘汰,由于V4的水平数分别为1和2,在进行回归时,使之变为0-1变量,最后纳入回归模型的因变量为V4-1,得到的回归模型为
这里对的拟合结果给每一个观测值一个概率值,这里以0.5为分类界限,并检验错判概率。
一共有83个观测值被错分,误判率为0.166。
(四)决策树回归
同样的,R软件中可以用rpart函数直接给出决策树回归结果,运行结果及决策树如下
同时,也可以得到决策树效果图
下面检测决策分类法的错分概率
一共有74个观测值错分,错分概率为0.148。
四、结论
由以上分析可看出,在对含有定性变量的回归分析中,同时因变量为二元变量时,logistic回归模型仍然是一个好的选择,错判概率在一个很低的水平。而决策树作为分类模型是个更好的选择,错判率比logistic回归模型的效果更好,即上图所示logistic回归模型的错判率为0.166而决策树分类模型的错判率为0.148。
参考文献:
[1]王济川,郭志刚.Logistic回归模型——方法与应用[M].高等教育出版社,2001.
[2]汤银才.R语言与统计分析[M].高等教育出版社,2008.
[3]吕晓玲,谢邦昌.数据挖掘:方法与应用[M].中国人民大学出版社,2009.
[4]吴喜之,复杂数据统计方法——基于R的应用[M].中国人民大学出版社,2012.
关键词:Logistic回归模型;机器学习法;决策树回归;R软件
一、Logistic模型
Logistic回归(logistic regression)是研究因变量为二分类观测结果与影响因素(自变量)之间关系的一种多变量分析方法,属概率型非线性回归。一般Logistic模型为:
其中p为事件发生的概率。
Logistic回归参数的估计通常采用最大似然法。最大似然法的基本思想是先建立似然函数与对数似然函数,再通过使对数似然函数最大求解相应的参数值,所得到的估计值为参数的最大似然估计值。最大似然估计具有的一致性、有效性和正态性都是一些很好的统计性质,样本数据越大时其估计值就越准确。
由于Logistic回归模型就是基于二项分布族的广义线性模型,因此在R软件中,Logistic回归分析可以通过调用广义线性回归模型函数glm()来实现。
二、决策树回归模型
机器学习中,决策树是一个预测模型;它代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象,而每个分叉路径则代表的某个可能的属性值,而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出,若欲有复数输出,可以建立独立的决策树以处理不同输出。 数据挖掘中决策树是一种经常要用到的技术,可以用于分析数据,同样也可以用来作预测。
决策树分析主要有两种,一种为分类树分析,它是当预计结果可能为离散类型(例如三个种类的花,输赢等)使用的概念;另一种为回归树分析,它是是当预计结果可能为实数(例如房价,患者住院时间等)使用的概念。
三、两种模型效果比较的实证分析
下面采用爱尔兰教育水平数据来检测logistic模型与决策树模型在对含有名义变量的回归中的效果,本数据来自http://lib.stat.cmu.edu/datasets/irish.ed
(一)数据说明
该数据包括500个样本,六个变量,变量分别为:
变量1为性别,以V1表示;变量2为一项测试的得分,以V2表示;变量3为获得的教育水平,以V3表示;变量4表示是否获得毕业证书,其中1表示否,2表示是,以V4表示;变量5表示被调查者的职业社会地位得分,以V5表示;变量6表示学校类型,以V6表示。
其中变量2、变量5为定量变量,而变量1、变量3、变量4、变量6为定性变量,这里对变量4作回归分析,即建立是否获得毕业证书的回归模型,显然,这里的变量4即V4为二元变量,回归模型适合用logistic模型以及决策树来建立。下面分别用R软件建立logistic模型与决策树模型。
(二)数据预处理
这里的预处理包括对数据缺失值的处理以及对某些变量的合并。
可以看到在V3及V5中出现了最小值0,显然V3与V5数据中出现了缺失值。对数据缺失采用R软件中的missForest进行处理。
对missForest处理后的数据作缺失值检测,显示缺失值为0,缺失值处理成功。
下面对处理后的新数据检测是否有做合并处理的必要,数据合并是对某些对因变量相关性很强的变量内部值作合并处理,这一点在作logistic回归中影响不大,但在作决策树回归时会由于变量相关性太强容易导致数据不能充分利用。下面尝试对V4作决策树:
显然,以V3作决策变量时,对V4的判定相当完美,可以说V3与V4是等同的,意味着在作决策树回归时产生了“过拟合”现象,即在样本内拟合相当完美,但在样本外拟合效果会很差。在尽量不删除变量的原则下,对V3中的11个水平数作一些合并,具体合并原则为:将未完成当前学制的(原类2、类3、类6、类7、类10)归为类2,完成当前学制的(原类4、类5、类8、类9、类11)归为类3,原类1任为类1,这样合并以后的V3只有3个水平。
(三)建立Logistic回归模型
R软件中通过glm函数直接建立logistic回归模型,另外这里采用逐步回归,回归结果如下
其中,V1在逐步回归中被淘汰,由于V4的水平数分别为1和2,在进行回归时,使之变为0-1变量,最后纳入回归模型的因变量为V4-1,得到的回归模型为
这里对的拟合结果给每一个观测值一个概率值,这里以0.5为分类界限,并检验错判概率。
一共有83个观测值被错分,误判率为0.166。
(四)决策树回归
同样的,R软件中可以用rpart函数直接给出决策树回归结果,运行结果及决策树如下
同时,也可以得到决策树效果图
下面检测决策分类法的错分概率
一共有74个观测值错分,错分概率为0.148。
四、结论
由以上分析可看出,在对含有定性变量的回归分析中,同时因变量为二元变量时,logistic回归模型仍然是一个好的选择,错判概率在一个很低的水平。而决策树作为分类模型是个更好的选择,错判率比logistic回归模型的效果更好,即上图所示logistic回归模型的错判率为0.166而决策树分类模型的错判率为0.148。
参考文献:
[1]王济川,郭志刚.Logistic回归模型——方法与应用[M].高等教育出版社,2001.
[2]汤银才.R语言与统计分析[M].高等教育出版社,2008.
[3]吕晓玲,谢邦昌.数据挖掘:方法与应用[M].中国人民大学出版社,2009.
[4]吴喜之,复杂数据统计方法——基于R的应用[M].中国人民大学出版社,2012.