基于决策树算法的数据挖掘应用研究

来源 :今日财富 | 被引量 : 0次 | 上传用户:handan0918
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要 介绍了决策树的理论和算法,研究了决策树算法在数据挖掘中的应用实例,实验结果表明决策树是一种很有效的数据挖掘技术。
  关键词 数据挖掘;决策树
  Abstract The theory and algorithm of decision tree are introduced in the paper. The decision tree algorithm’s application case in data mining is researched. The experimental results indicate the decision tree is an effective data mining technique.
  Key words Data mining; Decision tree
  一、引言
  数据挖掘是近年来计算机科学中的热点领域。决策树[1,2]是一种应用广泛的算法,在数据挖掘中占有重要的地位。本文介绍了决策树的理论和算法,研究了决策树算法在数据挖掘中的应用实例,实验结果表明决策树是一种很有效的数据挖掘技术。
  二、决策树的理论和算法
  决策树是一种逼近离散函数值的方法,是用于分类和预测的主要数据挖掘方法之一。作为以实例为基础的归纳学习算法,决策树能够对一组无次序、无规则的实例进行学习,从而推理出决策树表现形式的分类规则。
  决策树是一种典型的分类方法,是研究如何利用树把一个复杂的多类分类问题转化为若干个简单的分类问题,从而较容易的表示和解决问题。决策树首先对数据进行处理,利用归纳算法生成可读的规则和决策树,通过利用树来转换问题,决策树算法可以很容易地得到if-then形式的分类规则,然后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。
  建立决策树的过程可以分为两个阶段。其中,第一阶段为建树,即通过使用训练数据集进行学习,从而导出决策树。决策树归纳的基本算法是贪心算法,它采用的是自项向下递归的各个击破方式来构建判定树。建立决策树的第二个阶段为剪枝。通过使用测试数据集对决策树进行验证。当建立的决策树无法正确分类时,就需要对决策树进行剪枝以便解决过度拟合训练集合的问题。剪枝阶段降低了由于训练集的噪声而产生的影响,从而建立一棵正确的决策树。在众多的决策树算法中,ID3和C4.5是最早研究的决策树算法。
  具体的ID3算法如下:
  用训练集R创建节点N;
  If A为空
  返回N为叶节点,标记为R中多数样本对应的类;
  If N为属于同一个类
  返回N为叶节点,标记为所有样本对应的类;
  Else{
  For每一个属性
  估计选择a作节点的信息增益;
  选出信息增益最大的属性a*作为当前节点;
  根据a*的取值将R分裂为{Ri),并对决策树分叉;
  For 每一个Ri
  If Ri为空则返回叶结点;Else 执行ID3(Ri);}
  针对ID3算法不能直接处理连续型属性的不足, C4.5决策树算法进行了改进],从而能够处理属性值空缺和连续型属性等应用。
  作为数据挖掘领域中的经典算法,决策树算法与其它数据挖掘方法相比具有如下的显著优点:
  (1)易于理解:决策树能够生成简单和易于理解的规则,能够清晰的显示哪些字段比较关键和重要,因此用户不需要了解很多决策树的背景知识。
  (2)执行效率高:由于决策树计算量相对较小,而且容易转化成分类规则,只需要从树根向下一直到达叶子节点,沿途的分裂条件就能唯一确定一条分类的规则,因此较容易计算,执行速度快,分类效率非常高。
  (3)准确性高:跟其它分类方法相比,决策树算法通常可以得到很好的分类准确性,因此利用决策树得到的分类规则能够较准确地对样本进行分类,可以较好的满足用户的的应用需要。
  (4)具有很好的可伸缩性:决策树算法具有很好的可伸缩性,决策树算法不但可以应用到对小数据集进行数据挖掘,而且可对海量数据集进行数据挖掘。
  三、应用实例
  本文将决策树算法应用到sonar数据集上进行应用实例研究。sonar数据集是UCI数据库[3]中的一个数据集,它包括了61个属性,208个样本,2个类别。本文采用精度来衡量分类算法的性能。本文采用精度来衡量分类算法的性能。分类器对样本的分类结果有4种情况。
  TP:被正确地分类为属于此类别的样本数量。
  TN:被正确地分类为不属于此类别的样本数量。
  FP:被错误地分类为属于此类别的样本数量。
  FN:被错误地分类为不属于此类别的样本数量。
  根据以上4种情况,分类性能可以按照精度来评价,精度的定义如下:
  实验中也利用na?ve bayes算法对到sonar数据集进行了分类,并将其结果作为比较的基准。
  四、结论
  决策树算法是数据挖掘中的重要方法。本文介绍了决策树的理论和算法,研究了决策树算法在的一个数据挖掘应用实例,实验结果说明决策树算法是一种非常有效的算法。
  参考文献:
  [1] QUINLAN J. C4.5:Programs for Machine Learning[M].San Matteo,CA:Morgan Kaufm- ann Publishers,1993.
  [2] 董跃华,刘力.基于相关系数的决策树优化算法.计算机工程与科学, 2015, 37(9):1783-1793.
其他文献
摘要:关于中考几何题中的最值问题,往往知识面广、综合性大、应用性强,而且情境新颖,能很好地考查学生的创新能力和潜在的数学素质。而在解题中要高度重视模型思想的教学,要突出建模过程,让学生深刻体会模型思想,在过程中体会和掌握数学中常用的、重要的基本模型。  关键词:最值;建模  教学中发现学生在解决几何最值问题时,困难主要有两个方面:一是对解决这类问题常用的几种数学模型认识不充分,掌握不到位;二是这类
期刊
摘要:随着互联网时代对网络信息技术的不断推进,会计领域也面临机遇和挑战,在大数据平台中如何获取有效的会计信息成为信息使用者们探讨的焦点。本文就网络环境下的会计信息有效性展开分析,通过运用层次分析法确定权重,提高企业依据网络会计信息做出决策的警惕性,以避免其决策失误。  关键词:网络环境;会计信息;层次分析法;有效性  一、引言  会计信息是指客观存在,能影响人们行为的会计数据资源,通常是在国家统一
期刊
摘要: 方言词的方言本字,即其最早出现在历史文献中的书面形式。由于数千年来语音的不断变化,有些方言词人们只会说而不知其如何来书写。这篇文章试图通过利用形音义等方面的相关知识,并结合文献印证和方言印证来考证武山方言常用动词的本字。  关键词:武山方言;本字;考证  一、书写体例  先列方言本字,接着用国际音标对方言字进行注音,然后解释其词在方言中的义项,并列出方言词在方言中使用的例子,然后再列出书证
期刊
摘要:党的十八大报告明确提出:“以服务群众、做群众工作为主要任务,加强基层服务型党组织建设。”中国能源建设集团浙江火电建设有限公司焊接与检测技术工程公司党支部以服务能力、服务载体、服务平台、服务机制四大建设为抓手,通过岗位示范、先锋引领和品牌辐射,切实加强基层服务型党组织建设,助推企业管理再上新台阶,推进企业科学发展。  关键词:服务型党组织群众路线创先争优  一、实施背景  党的十八大报告明确提
期刊
摘要:随着社会不断进步,经济持续发展,人们在科学技术领域的交流逐渐增多,专用英语应运而生,被广泛应用到不同行业、领域中,发挥着不可替代的作用。汽车专业英语属于专用英语分支,具备专用英语共性,也具有汽车专业特有的语言特征。就汽车行业而言,需要结合工作情况,从词汇、语法等角度出发,全方位分析英语语言特色,优化利用汽车专业英语翻译方法与技巧,确保汽车行业日常工作顺利开展,提高运营效益。  关键词:汽车;
期刊
摘要:传统的英语教学模式早已不能吸引信息时代的学生,现阶段的英语课堂几乎是教师的独角戏。新兴教学模式“翻转课堂”在各类学校不同学科开始应用并取得了一些教学效果。本文首先分析了高职英语课堂的现有问题、然后论述了翻转课堂可行性,最后探讨了有效的翻转课堂教学模式。  关键词: 英语教学;教学模式;翻转课堂  一、 引言  传统的英语课堂教学模式已有几百年历史,教师的主导角色也从未改变过。随着信息技术的普
期刊
摘要:中国能源建设集团浙江火电建设有限公司焊接与检测工程公司努力探索新常态下的劳模创新工作室建设的新思路,认真开展劳动模范创新工作室建设工作,强化运行管理,在宣传教育、人才培养、创新创效等方面取得了较好的绩效,进一步强化了劳动模范在团队学习与创新中的引领示范作用,促进了企业人才培养,有效提升企业创造力,有效助推企业品牌建设和创新发展。本文通过对上述实践案例的分析,揭示劳动模范在团队学习与创新行为中
期刊
摘要:《语文课程标准(2011年版)》在“课程目标”中规定,第一、二、三学段的学生课外阅读总量分别不少于5万、40万、100万字。目前低年级的大部分学生识字量少,很少看课外书。说到捐书有些学生家里找不到一本。长此以往,语文教学一直被一些专家指责为“少、费、差、慢。”如何改变这种现状,我校低段教师结合学生实际,共同提出“激发学生自主识字的兴趣”这一课题。  关键词:自主;兴趣;评价  《语文新课标提
期刊
摘要:钼是一种银白色金属,主要用于冶金工业,用作生产各种合金钢的添加剂,在颜料、染料、涂料 、陶瓷玻璃及农业肥料等方面也有广泛的用途。从地层、构造、岩浆岩、变质作用等方面深入分析了清水河钼矿的成因类型及找矿标志。  关键词:钼;清水河;成因类型;找矿标志  矿区位处北祁连新元古代—早古生代逢合带内,其北以北祁连北缘断裂为界,与宁昌河二长花岗岩体(πγ33)对接。区内地层、构造、岩浆岩、变质岩及矿产
期刊
摘要:农村职校女生由于自身的特点和心理素质,在体育活动上表现出与男生绝然不同的一面。加强女生对体育课的目的与任务的理解,让女生充分认识到体育活动在人们生活中的重要地位、身体健康与体育的关系的重要性。本文结合自己的教学实践,对农村职校女生心理素质与体育素养的内涵作分析,并对如何培养农村职校女生体育素养作了一些思考。  关键词:农村职校;女生;体育素养;培养;研究  《体育与健康课程标准》指出,体育与
期刊