Logistic模型与决策树在定性数据分析中的效果分析

来源 :企业文化·下旬刊 | 被引量 : 0次 | 上传用户：honeysword

【摘要】

：

【作者】

：

李英娟

【出处】

：

企业文化·下旬刊

【发表日期】

：

2015年11期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　摘要：在对因变量为定性变量的的回归分析中，传统的方法包括Logistic回归模型、Probit模型等广义线性模型，同时，在机器学习法中也产生了诸如决策树回归、支持向量机等方法，此类方法的优点在于可以处理任意类型的数据以及在短时间类处理大型数据源。本文的目的在于面对定性变量的回归分析中，比较传统模型（以Logistic模型为例）与机器学习法（以决策树为例）两者的优劣。
　　关键词：Logistic回归模型；机器学习法；决策树回归；R软件
　　一、Logistic模型
　　Logistic回归（logistic regression）是研究因变量为二分类观测结果与影响因素（自变量）之间关系的一种多变量分析方法，属概率型非线性回归。一般Logistic模型为：
　　其中p为事件发生的概率。
　　Logistic回归参数的估计通常采用最大似然法。最大似然法的基本思想是先建立似然函数与对数似然函数，再通过使对数似然函数最大求解相应的参数值，所得到的估计值为参数的最大似然估计值。最大似然估计具有的一致性、有效性和正态性都是一些很好的统计性质，样本数据越大时其估计值就越准确。
　　由于Logistic回归模型就是基于二项分布族的广义线性模型，因此在R软件中，Logistic回归分析可以通过调用广义线性回归模型函数glm（）来实现。
　　二、决策树回归模型
　　机器学习中，决策树是一个预测模型；它代表的是对象属性与对象值之间的一种映射关系。树中每个节点表示某个对象，而每个分叉路径则代表的某个可能的属性值，而每个叶结点则对应从根节点到该叶节点所经历的路径所表示的对象的值。决策树仅有单一输出，若欲有复数输出，可以建立独立的决策树以处理不同输出。数据挖掘中决策树是一种经常要用到的技术，可以用于分析数据，同样也可以用来作预测。
　　决策树分析主要有两种，一种为分类树分析，它是当预计结果可能为离散类型（例如三个种类的花，输赢等）使用的概念；另一种为回归树分析，它是是当预计结果可能为实数（例如房价，患者住院时间等）使用的概念。
　　三、两种模型效果比较的实证分析
　　下面采用爱尔兰教育水平数据来检测logistic模型与决策树模型在对含有名义变量的回归中的效果，本数据来自http：//lib.stat.cmu.edu/datasets/irish.ed
　　（一）数据说明
　　该数据包括500个样本，六个变量，变量分别为：
　　变量1为性别，以V1表示；变量2为一项测试的得分，以V2表示；变量3为获得的教育水平，以V3表示；变量4表示是否获得毕业证书，其中1表示否，2表示是，以V4表示；变量5表示被调查者的职业社会地位得分，以V5表示；变量6表示学校类型，以V6表示。
　　其中变量2、变量5为定量变量，而变量1、变量3、变量4、变量6为定性变量，这里对变量4作回归分析，即建立是否获得毕业证书的回归模型，显然，这里的变量4即V4为二元变量，回归模型适合用logistic模型以及决策树来建立。下面分别用R软件建立logistic模型与决策树模型。
　　（二）数据预处理
　　这里的预处理包括对数据缺失值的处理以及对某些变量的合并。
　　可以看到在V3及V5中出现了最小值0，显然V3与V5数据中出现了缺失值。对数据缺失采用R软件中的missForest进行处理。
　　对missForest处理后的数据作缺失值检测，显示缺失值为0，缺失值处理成功。
　　下面对处理后的新数据检测是否有做合并处理的必要，数据合并是对某些对因变量相关性很强的变量内部值作合并处理，这一点在作logistic回归中影响不大，但在作决策树回归时会由于变量相关性太强容易导致数据不能充分利用。下面尝试对V4作决策树：
　　显然，以V3作决策变量时，对V4的判定相当完美，可以说V3与V4是等同的，意味着在作决策树回归时产生了“过拟合”现象，即在样本内拟合相当完美，但在样本外拟合效果会很差。在尽量不删除变量的原则下，对V3中的11个水平数作一些合并，具体合并原则为：将未完成当前学制的（原类2、类3、类6、类7、类10）归为类2，完成当前学制的（原类4、类5、类8、类9、类11）归为类3，原类1任为类1，这样合并以后的V3只有3个水平。
　　（三）建立Logistic回归模型
　　R软件中通过glm函数直接建立logistic回归模型，另外这里采用逐步回归，回归结果如下
　　其中，V1在逐步回归中被淘汰，由于V4的水平数分别为1和2，在进行回归时，使之变为0-1变量，最后纳入回归模型的因变量为V4-1，得到的回归模型为
　　这里对的拟合结果给每一个观测值一个概率值，这里以0.5为分类界限，并检验错判概率。
　　一共有83个观测值被错分，误判率为0.166。
　　（四）决策树回归
　　同样的，R软件中可以用rpart函数直接给出决策树回归结果，运行结果及决策树如下
　　同时，也可以得到决策树效果图
　　下面检测决策分类法的错分概率
　　一共有74个观测值错分，错分概率为0.148。
　　四、结论
　　由以上分析可看出，在对含有定性变量的回归分析中，同时因变量为二元变量时，logistic回归模型仍然是一个好的选择，错判概率在一个很低的水平。而决策树作为分类模型是个更好的选择，错判率比logistic回归模型的效果更好，即上图所示logistic回归模型的错判率为0.166而决策树分类模型的错判率为0.148。
　　参考文献：
　　[1]王济川，郭志刚.Logistic回归模型——方法与应用[M].高等教育出版社，2001.
　　[2]汤银才.R语言与统计分析[M].高等教育出版社，2008.
　　[3]吕晓玲，谢邦昌.数据挖掘：方法与应用[M].中国人民大学出版社，2009.
　　[4]吴喜之，复杂数据统计方法——基于R的应用[M].中国人民大学出版社，2012.

其他文献

无印良品的生活方式营销策略分析及启示

摘要：本文分析了无印良品的生活方式营销策略，认为生活方式营销能够深刻影响消费者，对于本土企业而言，需要超越产品层次的竞争，打造生活方式品牌，使品牌具有独特的气质和精神，只有这样才能使企业具有独特的竞争优势。　　关键词：无印良品；生活方式；营销策略　　一、无印良品品牌介绍　　无印良品（MUJI）是上个世纪八十年代的日本所产生的一个品牌。其品牌立意为没有商标和品牌，但是质量优越。无印良品的包装简洁，

期刊

高职院校毕业生就业权益保护研究

摘要：本文主要以长沙商贸旅游职业技术学院为例，以小见大，分析总结当前高职院校毕业生就业权益方面所存在的问题，探讨保护高职院校毕业生就业权益的有效措施，期望更好的维护高职毕业生的就业合法权益。　　关键词：经济法；劳动法；高职院校；毕业生就业；就业权益；就业　　随着社会的发展和科技的进步，社会对人才的需要越来越高，各个领域不仅需要理论功底深厚的研究型高素质人才，同时也需要技能技术型人才，高职院校是培

期刊

小米手机经营策略分析及启示

摘要：本文分析了小米手机的成功原因，小米手机的互联网思维具有前瞻性，并认为小米手机的经营策略可以借鉴，尤其是对国内的传统手机厂商，应该更为积极的进行营销变革，改善经营模式和策略才能够在未来获得成功。　　关键词：小米；手机；经营策略　　一、小米手机的发展历程　　小米手机创建于中国，是中国手机行业的新兴代表。小米的历史不长，至今不到6年的发展，但是小米手机已经成为中国本土创新型企业，其经营范围不仅在

期刊

浅谈多层民用住宅建筑工程的施工质量管理

摘要：民用住宅建设市场竞争激烈，如何能够保证自身企业在竞争中得以生存，是各企业面临的重要问题，在企业相同的开发环境、施工条件以及市场需求的背景下，保证工程质量才是赢得竞争力的法宝，为此，在多层民用住宅施工中，一定要加强工程质量的管理，协调好工程进度和质量二者之间的关系。　　关键词：多层民用住宅；施工质量管理；管理思路　　多层民用住宅工程施工项目管理包括很多工序，其中施工质量管理是非常重要的一项工

期刊

客户档案管理在电力营销管理中的重要作用

摘要：在电力营销管理当中，客户档案管理是一项十分重要的工作，包括许多方面的内容，比如客户基本信息、用电信息、计量信息等等，只有做好这些客户资料的档案管理工作，才能保证电力营销管理的良好开展。本文就在阐述当前电力营销管理中客户档案管理现状的基础上，分析了客户档案管理在电力营销管理中的重要作用。　　关键词：客户档案管理；电力营销管理；重要作用　　在客户档案管理当中，基本资料、用电信息、计费参数等都十

期刊

消费者风险来源及其保护机制研究

摘要：本文分析了消费者的风险来源，并探讨了消费者风险控制策略，以及如何建立消费者权益保护机制。　　关键词：风险来源；保护机制　　一、消费者风险来源分析　　如果消费者都是理性的、自主的，能够通过充分的信息进行谨慎的决策，那么就不存在消费者风险来源的问题。但是现实环境中，消费者往往处于信息不对称以及并非完全理性的弱势地位，必将面对各种消费活动带来的风险。消费者风险来源主要包括消费欺诈、产品质量问题、

期刊

建筑工程项目管理的问题与措施研究

摘要：目前工程项目施工管理水平还比较薄弱，管理的水平参差不齐。本文在分析研究了我国工程项目施工管理的问题，提出为适应建筑行业发展的新形势，必须全面实行工程施工信息化管理，和具体的改进措施。从而提高工作效率及质量，使工程施工技术资料能真实的反映项目管理的水平。　　关键词：工程管理；施工；工程项目　　随着我国改革开放的进一步加快，中国经济口益深刻地融入全球市场，在我国的跨国公司和跨国项目越来越多。改

期刊

电子信息技术在电力自动化系统中的应用

摘要：21世纪是电子信息的时代，进二十年电子信息技术飞跃发展。信息技术的成果已经深入到了人们生活的方方面面。人们越来越离不开电子信息技术。而随着我国经济的快速发展，人们对电力的需求越来越大，并且对供电的稳定性和安全性也提出了更高的要求。因此将电子信息技术融入到电力系统中，形成为电力自动化系统，这样不仅可以提高供电系统的效率、节省人力节约人力资源还可以提高供电的安全性和稳定性。因此本文将先对电力自

期刊

宾馆信息化的应用建设及发展趋势

一、国外宾馆信息化应用的三个阶段　　（一）基于传统的电算化阶段　　规模化经营的宾馆作为集客房、餐饮、娱乐，商务文化及其他各种服务与设施为一体化的消费场所，组织庞大，服务项目，多，信息量大，要想提高工作效率，降低成本，提高服务质量和管理水平，必须借助计算机来对宾馆运行过程中的人流、物流、资金流和信息流进行输入、存储、处理和输出。　　早期的国外宾馆行业信息化应用正是为此而设计，以替代手工操作为主而引人

期刊

电气自动化节能的意义及其对策研究

摘要：当今世界的科学技术突飞猛进，电力系统也逐渐提高了自动化程度，加之，全社会节能环保意识的增强，要求电气自动化以节能设计为发展的方向之一。　　关键词：电气自动化；节能；技术　　随着我国科学技术的不断革新，人们节能环保意识的提升，通过电气工程自动化设计达到节能的目的，已经成为电气工程发展的趋势之一。电气自动化节能技术广泛的应用于人们日常生活及工业生产，利于降低企业运行成本，提高劳动生产率，还能在

期刊

Logistic模型与决策树在定性数据分析中的效果分析

其他学术论文