【摘 要】
:
决策树方法是一种广泛使用的用于分类的方法,它通过一组无次序,无规则的实例推理出决策树表示形式的分类规则,从而找到一些有价值的、潜在的信息。本文通过对数据集和决策树
论文部分内容阅读
决策树方法是一种广泛使用的用于分类的方法,它通过一组无次序,无规则的实例推理出决策树表示形式的分类规则,从而找到一些有价值的、潜在的信息。本文通过对数据集和决策树算法的处理和改进来提高预测分类精度和降低时间复杂度。首先,对连续属性离散化算法进行了比较,提出了一种序列区间拆分算法(SISA),该算法先根据决策属性值相同而条件属性值不同划分成不同的区间,然后再将候选断点插入到这些区间,最后在区间范围内的值用不同的离散值表示出来,通过实例可以得出该算法处理过程简单并易于实现。其次,为了除去分类数据中冗余的属性,本文提出了一种基于简化差别矩阵的属性约简算法(SDMAR)。该算法在属性约简之前,先对数据进行了化简,得到简化决策表。根据简化决策表构造差别矩阵,通过计算差别矩阵中属性出现次数达到对决策表属性约简的目的。通过算法及实例分析得到属性约简过程的时间复杂度有所减小。最后,本文提出了一种基于协同进化的决策树分类算法,引入了遗传学中的二进制编码,这样使得交叉、变异等操作便于实现;用一种新的方法去计算适应度。训练数据集二进制编码后,根据特征划分成不同的子集,每个子集分别使用协同进化方法,协同进化过程一直进行下去,直到找到满意的决策树。本文使用C语言对上述算法进行实现,实验表明,本文所提出的算法在解决各自的问题上是有效的,在时间上低于同类算法,预测精度上得到了提高,实现了预期的研究目标。
其他文献
随着信息化程度的提高,信息的生产越来越快,数据量巨增,如何快速有效地对大规模数据进行聚类分析处理成为数据挖掘领域中的一个研究热点。 并行聚类算法将并行计算方法与
随着网络技术的日益成熟,Web的飞速发展使其成为了一个浩瀚而复杂的巨大数据源。按照数据蕴藏的深度,整个Web可以进一步划分为Surface Web和Deep Web。Deep Web主要有Web中可在
轮廓查询技术是空间查询及优化领域的研究热点, k-支配轮廓技术是近年来轮廓查询技术领域的新的研究方向。k-支配轮廓查询及其动态处理被广泛使用在多种空间数据库中,在数据
基于TCP/IP的Internet迅猛发展,已经成为全球覆盖范围最广,承载业务最多的综合性网络。通过IP网络承载传真业务,由于其低廉的费用和高效的带宽利用率,正在成为一种新的具有相
随着信息技术的迅猛发展,各种信息的获取、保存与使用方式给人们带来了极大的方便,但未经版权所有人许可,对数字作品的任意复制、修改等盗版行为也日趋严重。在此背景下,数字
动词子语类框架(subcategorization frame,以下简称SCF)信息在语言学上有重要的意义,它可以解决绝大部分词语的论元和附属语区分问题。在概率句法分析应用中,子语类框架信息可以
新型网络结构、业务模式以及网络安全等研究由于缺乏大规模测试环境的支持很难展开深入的研究与验证,导致研究成果缺乏说服力。面向上述研究的大规模网络模拟技术对计算机网络
数控系统作为衡量一个国家制造业水平的重要标志越来越受到人们的重视。目前,大多数数控系统已经具备了速度快、精度高和智能化的特点,但传统的数控系统,只能同时完成一个工
分辨率的提高与压缩技术的进步,使得数字视频和图像处理应用对高性能的需求也与日俱增。同时还需要保持架构的灵活性,以获得快速升级的能力。此外,技术的成熟以及需求的增加要求
数据挖掘在人工智能的研究中具有重要地位。传统的数据挖掘研究一般基于理想环境进行,即数据是完整的,类别是均衡的。但在现实世界中环境是非确定性的,即数据中普遍含有噪声,