基于决策树的ID3算法的研究与改进

来源 :河北工业大学 | 被引量 : 0次 | 上传用户：wow32167

【摘要】

：

数据分类是数据挖掘中一个重要的内容。常见的分类模型有决策树、神经网络、遗传算法、粗糙集等。其中决策树算法是以实例为基础的归纳学习算法，以其易于提取显示规则、计算量

【作者】

：

王鹤

【机构】

：

河北工业大学

【出处】

：

河北工业大学

【发表日期】

：

2008年期

【关键词】

：

数据分类数据挖掘分类模型决策树算法 ID3算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

数据分类是数据挖掘中一个重要的内容。常见的分类模型有决策树、神经网络、遗传算法、粗糙集等。其中决策树算法是以实例为基础的归纳学习算法，以其易于提取显示规则、计算量相对较小、可以显示重要决策属性和较高的分类准确率等优点而得到广泛的应用。论文从学习数据挖掘的基础理论出发，重点介绍和研究了决策树的ID3 算法，并分析了ID3算法存在的以下缺点：1、ID3不能处理连续性数据。2、ID3算法在选择分裂属性时倾向于选择属性值多的属性。3、计算效率低。针对以上的缺点，论文的主要工作体现在以下几个方面：第一、归纳了数据挖掘技术的总体研究情况，包括数据挖掘的定义，挖掘的主要过程和主要技术手段等。第二、从宏观上介绍了分类技术的理论基础，对几种常见决策树算法进行了分析和比较，例如ID3、C4.5、CART 算法，并重点分析了决策树的ID3算法。第三、论文对决策树算法进行了优化研究，提出了一种改进的ID3 算法，改进的算法与决策树的ED(Effective-Degree)算法相结合，选取新的标准作为选择分类属性。通过对新算法在测试样例上训练得出的结果表明：改进算法在能有效提高分类的精度，改善ID3算法选择分裂属性时倾向取值较多的不足，总体性能上优于目前广泛应用的ID3算法。

其他文献

短文本主题挖掘算法研究

学位

基于Gabor小波特征的人脸表情识别研究

人脸表情识别是模式识别、情感计算、心理学、机器视觉等研究领域的一个极富挑战性的交叉学科课题，是近年来的一个研究热点，目标是设计出具有情感反馈的人机交互环境，并最终实现

学位

限定域中文问答系统关键技术的研究

问答系统是新一代的智能搜索引擎，它允许用户以自然语言的方式提问，并向用户返回答案。限定域问答系统是指针对特定领域，如教育、银行、法律、旅游等专业领域的问答系统，其领域范

学位

中文问答系统限定域智能搜索引擎支持向量机问句分类算法语义分析

中文垃圾邮件过滤技术的研究与应用

随着Internet应用在全球的快速普及,电子邮件以其成本低廉、传播迅速的特点,已经成为人们日常生活中通信、交流的重要手段之一。然而,一些人出于个人目的,利用Internet滥发垃

学位

垃圾邮件过滤中文分词特征选取贝叶斯分类SpamAssassin

基于动态语义的web服务描述

语义Web服务是将语义Web技术和Web服务技术结合起来，引入本体来增强对Web服务的语义描述，使得Web服务的描述成为机器可读和可理解，并利用语义的推理技术使Web服务的发现、组合和

学位

Web服务描述动态语义语义匹配时序特性推理服务逻辑程序

基于免疫遗传算法的物流配送VRP问题研究

物流配送路径优化,即车辆路径问题(Vehicle Routing Problem, VRP),是当今物流配送优化中关键的一环,也是电子商务活动不可缺少的内容,一直是近二十多年来的研究热点。运输路

学位

VRP免疫算法遗传算法轮盘赌多种群

基于视频压缩标准H.264的研究及应用

目前音视频类的软件越来越被现在年轻人所爱好,本文依赖这一背景,采用如今压缩效率比较好的视频压缩算法H.264开发出一套音视频软件。在项目开发过程中,根据自己的研究结果完

学位

H.264视频压缩抗误码DirectShowKTV

基于卷积神经网络的行为识别研究

行为识别技术是计算机从包含人的视频或图像序列中对人的行为进行理解和分类的技术,本文使用深度学习的方法来进行行为识别。深度学习是近几年来机器学习领域非常热门的方向,

学位

行为识别卷积神经网络KTH数据库Gabor滤波器

基于数字水印的电子印章系统设计与实现

在计算机技术与数字网络的快速发展的今天,信息化的电子政务已经成为世界各国政府政务活动的一种新模式。在电子政务的建设中,信息和数据的安全性与完整性是电子政务中的一个

学位

公开密钥数字签名数字水印电子印章

基于LDAP的教学资源库系统的实现

信息技术对于当今教学日益重要，多媒体教学资源库的引进，为广大的教师找到了一条将信息技术应用于课堂教学的捷径。多媒体教学资源库系统主要采用LDAP实现，通过LDAP目录服务支持

学位

教学资源库目录服务远程教育轻型目录存取协议数据集合

基于决策树的ID3算法的研究与改进

与本文相关的学术论文