【摘 要】
:
数据挖掘注重学习和实践中的理论素养的培养,同样也注重在实际中的应用。数据分类是数据挖掘的一个重要组成部分,而其中的决策树算法是数据分类方法中的一种主要方法。目前,
论文部分内容阅读
数据挖掘注重学习和实践中的理论素养的培养,同样也注重在实际中的应用。数据分类是数据挖掘的一个重要组成部分,而其中的决策树算法是数据分类方法中的一种主要方法。目前,虽然已有一些新的改进方法甚至新的划分方法提出,但是这些方法都有其特定的条件与限制,没能在根本上打破ID3决策树算法的基础理论格局。基于这一背景,如何更好的对ID3决策树算法进行分析与改进依然是一个值得去仔细学习和研究的问题。本文以国家外汇管理局甘肃省分局的实际生产数据为基础,从分析ID3决策树算法并解析其优缺点入手,引入属性样本结构相似度概念,构建了样本结构相似度模型,并以该模型和属性的信息增益共同作为决策树内部节点的选择标准。改进后形成的SS_ID3决策树算法对原始ID3决策树算法的多值偏向问题进行了修正,本文对改进前后的算法进行了理论和实验验证。在理论分析和实验验证的基础上,通过对比分析能够确定,改进的SS_ID3决策树算法着眼于决策树非叶节点选择标准的优化,所使用的属性结构相似度模型干预的决策树算法,继承了原始ID3决策树算法的优点,并在多值偏向性的修正、决策树的大小控制和对分类及预测性能几方面取得了有意义的改进。本文最后在实际数据的基础上对原始ID3算法和改进的SS_ID3决策树算法的多值偏向问题和决策树的生成分析进行了理论和实验的验证。
其他文献
从消防法律体系建设进程来看,《消防法》、地方性消防法规及行政规章构成了法律主体。但随着社会的发展,从法治视角对当前消防法律体系中的问题进行探讨,以完善消防法律体系,
研究了不同气体组合条件下,玫瑰香葡萄0℃下120天的贮藏效果。结果表明,气调有利于玫瑰香葡萄贮藏,合适的气体环境能够明显防止玫瑰香葡萄腐烂和脱粒,保持果梗的绿色,葡萄果
随着移动通信市场逐渐走向成熟,在各移动通信运营商技术条件趋于一致的过程中,客户往往关注的重点不是通信本身的内容,而是通信过程中享受到的服务。因此,当前各移动通信运营
朱锦善,男,教授,主任医师,硕士生导师,著名中医儿科专家。历任中华中医药学会儿科分会常务副主任委员兼秘书长、顾问,中国中医高等教育学会儿科分会常务副理事长、顾问,国家食品药品
选取100枚卢氏绿壳鸡蛋进行品质测定,结果表明:卢氏绿壳鸡蛋的蛋重为49.15 g,蛋比重为1.09,蛋形指数为1.31,蛋壳厚度为356.8μm,蛋黄占全蛋比例为33.16%,蛋黄的粗脂肪含量为5
农民工作为游离在城市和乡村的特殊人群,虽然为城市的建设和工业的发展做出了重要贡献,但长期以来却被城市住房保障制度拒之门外。农民工住房难、住房条件差问题凸显,严重制
<正> “酒阴症”系指饮酒者酒后当风受寒,或沐浴冒雨,或醉卧于寒冷潮湿之地后,出现寒热时作,汗出不止,头身困重,少气乏力,胸闷呕恶,口苦咽干等一系列症状的病症。因本病缘于
2011年秋季对550份糯玉米种质资源进行南方玉米锈病抗性鉴定。结果表明:供试的糯玉米种质材料间的抗感性存在显著差异,缺乏对南方玉米锈病的抗源。在所有鉴定资源中,中抗以上
随着计算机技术、计算机网络技术以及图形图像技术的发展,出现了网络游戏。网络游戏以计算机、计算机网络为运行平台,是目前最为流行的一类计算机游戏。计算机游戏界面是用户
现代谱估计方法克服了经典谱估计方法方差大、分辨率低的缺点。参数模型功率谱估计是现代谱估计法的重要内容。介绍了几种常用的功率谱参数估计模型,通过仿真实例比较了其性