基于信息增益的决策树算法的分析与改进

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:spendtime
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘概念的第一次出现是在1995年的知识发现会议上,由Fayyad提出的。他认为数据挖掘是一个知识发现的过程,是一个自动或者半自动化的从大量的数据中发现有意义的,对我们潜在有用的数据模式的过程。数据挖掘研究起初的障碍是数据的收集比较困难,对少量数据处理容易导致模型的过度拟合。后来由于越来越多的人意识到数据挖掘的重要性,各行各业开始逐渐投入大量的资源来建立和维护自己的信息化系统以用来收集可利用的数据。但是数据量的丰富,在给我们提供大量数据的同时也带来了一些麻烦。首先虽然数据量很大但不一定全是有用的信息,从这些数据中找出我们需要的数据是一个重要的问题,其次数据量过大时对数据的存储也是一个重大的挑战。数据挖掘中使用的方法主要是有以下几类,关于监督和预测的模型:神经网络、决策树算法、回归等;无监督模型:聚类分析(快速聚类及二阶聚类)和关联分析(多维关联及时序关联);针对大数据现象出现的数据降维类方法:主成分分析、因子分析等。根据想要得到的结果,可以选择不同的分析方法。本文主要介绍决策树方法中的ID3算法和C4.5算法,并且分析了它们各自的优缺点。本文的创新点是在ID3算法理论的基础上提出了修正的信息增益函数。修正的算法可以在一定程度上避免原算法中易偏向于选择属性取值数目较多的属性作为样本的划分属性。将ID3算法和改进的算法的预测能力进行比较,实验表明改进的算法具有更高的预测精度。本文中还分析了数据流挖掘中基于Hoeffding不等式的VFDT算法,针对连续属性处理的NIPDT算法,基于排序二叉树思想的VFDTb算法,以及融合了贝叶斯分类思想的VFDTc算法。对VFDT算法和VFDTc算法在数据的处理速度方面对了比较,实验表明VFDTc算法具有更好的处理速度。
其他文献
本文包括如下两部分的工作。 第一部分利用Hopf-Colc变换,将一维非线性Burgcrs方程转化为线性扩散方程,基于第二类saulycv型非对称格式和crank-Nicolson格式对扩散方程进行
  现代科学技术的发展在很大程度上依赖于物理学,化学和生物学的成就和进展,而这些学科自身的精确化又是他们取得进展的重要保证。学科的精确化往往是通过建立数学模型实现
该文主要研究一般线性混合模型和带随机效应生长曲线模型的参数估计问题.首先对带一个随机效应的混合模型,我们利用约简模型思想为感兴趣部分固定效应提出了新的简单估计,此
学位
数字签名不同于传统的手写签名方式,它是基于公钥密码体制,依据一定的密码算法构造而成的。由于数字签名可以解决否认、伪造、篡改、及冒充等问题,因而,它成了解决电子商务安