论文部分内容阅读
20世纪60年代,Hunt等人在研究人类概念建模时提出了决策树算法。决策树作为一种非常简捷的分类算法,其基本思想是从一组无规则无次序的事例中推理出决策树表示形式的分类规则,是挖掘规则知识的有效工具,现已成为较为广泛应用的逻辑方法之一。近年来,已成功地应用于科学实验、医疗诊断、气象预报、信贷审核、商业预测、案件侦破等领域。如今存在的众多决策树算法,都在一定程度上取得了较好的分类效果,但在如何选择更有效的启发式函数,对所构造决策树方法的可理解性方面以及决策树算法的应用领域方面依然存在进一步的探索空间。为此,本文主要做了以下几方面的工作:本文首先在分析决策树算法的本质特征基础上,基于ID3算法的扩展属性选择模式,针对扩展属性的选择问题,通过具体图示形象的说明了好的扩展属性所应具有的特点,总结了扩展属性选择的基本准则,提出了鉴别属性扩展性能的叶子准则、数据利用准则以及综合效应准则,建立了具有结构特征的评价属性扩展能力的数学模型。其次,通过引入拟线性函数,在分析拟线性函数性质特点的基础上,给出了一类基于拟线性函数的扩展属性选择模式(简记为QASM),并从理论和实验两个层面讨论了QASM的性能。再次,针对属性约简问题,在研究现行属性约简算法基础上,结合决策树算法操作简单、分类速度快且无需了解很多背景知识的的优点,提出了将决策树得出的规则知识进行规范化描述的模式,基于粗糙集理论中属性约简算法,给出了一种基于决策树算法的属性约简方法,并结合具体实例分析了算法的基本特征和性能。结果表明,该算法简单且具有较强的可操作性,可以有效地处理大规模数据库的属性约简问题。