论文部分内容阅读
摘 要:分类问题是数据研发领域里研究和使用最广泛的技术之一。近几年经济的飞速发展,分类问题在多行业和领域中被广泛使用,那么,怎样更准确、更有效地分类呢?这是多数研究工作人员的目标。决策树(decision tree)以条理清晰,程序严谨,定量、定性分析相结合,方法通俗易懂,容易掌握,应用性较强等优点,被广泛应用。现在构造决策树的算法比较多,如:ID3算法、C4.5算法、CART等。C4.5算法是在ID3算法的基础上进行改进的,C4.5算法选用信息增益率(Info Gain Ratio)为择取分枝属性的标准,此方法弥补了ID3算法在运用信息增益择取分枝属性时偏向于取值较多的属性的不足之处,但是C4.5算法也有部分缺陷,本文主要在其处理连续属性比较耗时问题上进行深入探讨,本文对其连续的处理过程进行改进来提高C4.5算法的计算效率,大大缩短算法用时。
关键词:决策树(decision tree);C4.5;连续值(continuous value);改进(improve)
中图分类号:TP391.41
决策树主要是以实例为基础的归纳学习算法,一般是没有次序、没有规则的实例的集合里选取一部分采用树形框架展现的分类规则[1]。在1960-1969年期间,决策树方法在分类、推测、规则提取等领域得到大范围使用。使用决策树来处理问题主要分两步,一是经训练集合的学习,最后形成的决策树分类框架;二是利用第一步形成的决策树分类框架对其它不知道类型的样本进行分类,在利用决策树形成的框架对其它未知样本分类时,需从根节点开始逐一对此样本的属性细心检测,然后顺从相关分枝向下行走,直到某个叶节点,这个叶节点所代表的类型便是这个样本的类型。从上述可以看出采用决策树方法来分类的关键是根据训练集合建决策树分类框架。决策树分类算法里最常见、最经典的是C4.5算法,现决策树C4.5算法已被广泛应用于计算机、金融、院校、医疗等领域。C4.5算法存在一定的缺陷,因此,决策树算法C4.5的改进尤为重要。
1 C4.5决策树的分类算法
机器学习研究者Quinlan在1993年提出C4.5算法,C4.5算法是从ID3算法改进后的成果,特点是增强对连续属性和空缺值的处理,更正了择取分支属性的依据。ID3算法开始假设属性通常都是离散值,但是,实际运用时多数属性值是连续的。对此C4.5是对ID3算法无法处理连续属性的缺点而进行完善,比如存有连续型的描述性属性,我们先要把连续型的属性值区分为不同的区间,这就是我们所说的“离散化”。此过程运行时,先使用快速排序算法把属性值分别排序,然后算取计算信息增益值并找到分割阈值,最后采用顺序查询的方法找到阈值。ID3算法中缺少对空缺值的处理,但在C4.5算法中恰好弥补了这一缺陷,C4.5算法中的处理的方法不是简单的去除那些缺少属性值的训练样本,而是填补一个修正参数,此参数值是样本中已知属性值的样本个数和样本总数。因ID3算法中把信息增益作为择取分支属性的标准,最终会导致算法选择时偏向于取值较多一方的属性,有造成过渡拟合的可能。为弥补此缺陷,在把谁作为择取分支属性的标准的问题上,C4.5算法用信息增益率取而代之。这也是C4.5算法改进的关键。
2 连续属性处理过程的改进
。
3 C4.5算法改进后和改进前的对比
参考文献:
[1]冯少荣.决策树算法的研究与改进[J].厦门大学学报(自然科学版),2007,20(4):498-500.
[2]黄爱辉.决策树C4.5算法的改进及应用[J].科学技术与工程,2009,9(1):34-36.
作者简介:张逸群(1991-),男,江苏滨海县人,2013年本科毕业于华南理工大学,ITM(Information Technology Management)专业,研究生在读,研究方向:电子医疗器械(生物医学工程专业)。
作者单位:香港浸会大学,香港九龙塘 999077
关键词:决策树(decision tree);C4.5;连续值(continuous value);改进(improve)
中图分类号:TP391.41
决策树主要是以实例为基础的归纳学习算法,一般是没有次序、没有规则的实例的集合里选取一部分采用树形框架展现的分类规则[1]。在1960-1969年期间,决策树方法在分类、推测、规则提取等领域得到大范围使用。使用决策树来处理问题主要分两步,一是经训练集合的学习,最后形成的决策树分类框架;二是利用第一步形成的决策树分类框架对其它不知道类型的样本进行分类,在利用决策树形成的框架对其它未知样本分类时,需从根节点开始逐一对此样本的属性细心检测,然后顺从相关分枝向下行走,直到某个叶节点,这个叶节点所代表的类型便是这个样本的类型。从上述可以看出采用决策树方法来分类的关键是根据训练集合建决策树分类框架。决策树分类算法里最常见、最经典的是C4.5算法,现决策树C4.5算法已被广泛应用于计算机、金融、院校、医疗等领域。C4.5算法存在一定的缺陷,因此,决策树算法C4.5的改进尤为重要。
1 C4.5决策树的分类算法
机器学习研究者Quinlan在1993年提出C4.5算法,C4.5算法是从ID3算法改进后的成果,特点是增强对连续属性和空缺值的处理,更正了择取分支属性的依据。ID3算法开始假设属性通常都是离散值,但是,实际运用时多数属性值是连续的。对此C4.5是对ID3算法无法处理连续属性的缺点而进行完善,比如存有连续型的描述性属性,我们先要把连续型的属性值区分为不同的区间,这就是我们所说的“离散化”。此过程运行时,先使用快速排序算法把属性值分别排序,然后算取计算信息增益值并找到分割阈值,最后采用顺序查询的方法找到阈值。ID3算法中缺少对空缺值的处理,但在C4.5算法中恰好弥补了这一缺陷,C4.5算法中的处理的方法不是简单的去除那些缺少属性值的训练样本,而是填补一个修正参数,此参数值是样本中已知属性值的样本个数和样本总数。因ID3算法中把信息增益作为择取分支属性的标准,最终会导致算法选择时偏向于取值较多一方的属性,有造成过渡拟合的可能。为弥补此缺陷,在把谁作为择取分支属性的标准的问题上,C4.5算法用信息增益率取而代之。这也是C4.5算法改进的关键。
2 连续属性处理过程的改进
。
3 C4.5算法改进后和改进前的对比
参考文献:
[1]冯少荣.决策树算法的研究与改进[J].厦门大学学报(自然科学版),2007,20(4):498-500.
[2]黄爱辉.决策树C4.5算法的改进及应用[J].科学技术与工程,2009,9(1):34-36.
作者简介:张逸群(1991-),男,江苏滨海县人,2013年本科毕业于华南理工大学,ITM(Information Technology Management)专业,研究生在读,研究方向:电子医疗器械(生物医学工程专业)。
作者单位:香港浸会大学,香港九龙塘 999077