论文部分内容阅读
人工智能这门学科包含的内容十分广泛,最近几十年最令人感兴趣的是其中的机器学习方向,即如何让计算机像人类一样具有学习能力。本文首先讨论了机器学习相关研究的开端、发展历史及研究领域,提出了本文将要研究的主要对象:决策树学习,并给出了它的研究现状。然后从宏观上介绍了机器学习系统的基本结构,各部分的功能。经过很多年的发展,已经开发出了许多成熟的学习算法,它们使用的方法各不相同,比如:机械方法、分析方法、解释方法、归纳方法等等,在文中这些方法都一一做了解释与举例。决策树是一种归纳学习方法,而归纳学习又是机器学习诸分支中最成熟的。为了形象地说明各种归纳学习方法,文中构造了一个“令人舒适天气”的分类学习任务,算法在完成对训练样例的学习后可以分类后续的类别未知的实例,接下来使用了寻找极大特殊假设、列表后消除算法、侯选消除算法、序列覆盖算法对这个任务进行归纳学习,顺次指出了这些方法的不足与缺陷以及它们的改进。决策树学习不同与上面提到的几种归纳学习算法,此方法的最终学习结果是一棵树,而上面算法的学习结果是一个(组)规则。决策树的非叶结点表示属性;结点的下向分支对应该属性的一个属性值;叶结点表示类别。分类类别未知的新实例时可以从这棵树的根结点开始,测试这个结点对应的属性,然后按照给定实例的该属性的属性值沿着树枝向下移动,这个过程在新结点为根的子树上重复,直到进行到叶结点得到新实例的类别为止。生成决策树的经典算法是ID3,它采用自顶向下的方法,从根结点开始,根据此结点对应的样例集,按某一标准,选择结点相关属性,然后根据属性值的个数向下伸出相应数量的分支并将样例集做相应的划分,形成子结点,如此递归形成一棵决策树。在树的生成过程中,非叶结点相关属性的选择直接决定树的质量。ID3使用类别信息增益(CIG)作为选择属性的标准,而作者在逆向思维的基础上提出了使用属性信息增益(AIG)来选择属性。时间复杂度分析表明选择属性时间花费最大的部分是对训练样例集合的扫描,CIG需扫描此集合2n+1次,n为属性个数,而AIG仅需进行固定的3次扫描,在时间花费上减少了一个数量级。基于UCI数据的实验显示AIG和CIG对属性的选择几乎是完全一样的。过于复杂的决策树需要修剪。修剪分为事前修剪和事后修剪。本文介绍了许多事前、事后修剪算法,并阐述了本人提出的两种事前修剪算法:基于结点支持度的事前修剪算法PDTBS和基于结点纯度的事前修剪算法PDTBP。在另一个基于UCI数据的实验中实现了提到的几种修剪算法以及PDTBS和PDTBP,结果表明:后两者在对树分类精度影响极小的条件下,大幅度地修剪了决策树。