论文部分内容阅读
数据分类是数据挖掘中一个重要的内容。常见的分类模型有决策树、神经网络、遗传算法、粗糙集等。其中决策树算法是以实例为基础的归纳学习算法,以其易于提取显示规则、计算量相对较小、可以显示重要决策属性和较高的分类准确率等优点而得到广泛的应用。
论文从学习数据挖掘的基础理论出发,重点介绍和研究了决策树的ID3 算法,并分析了ID3算法存在的以下缺点:1、ID3不能处理连续性数据。2、ID3算法在选择分裂属性时倾向于选择属性值多的属性。3、计算效率低。
针对以上的缺点,论文的主要工作体现在以下几个方面:
第一、归纳了数据挖掘技术的总体研究情况,包括数据挖掘的定义,挖掘的主要过程和主要技术手段等。
第二、从宏观上介绍了分类技术的理论基础,对几种常见决策树算法进行了分析和比较,例如ID3、C4.5、CART 算法,并重点分析了决策树的ID3算法。
第三、论文对决策树算法进行了优化研究,提出了一种改进的ID3 算法,改进的算法与决策树的ED(Effective-Degree)算法相结合,选取新的标准作为选择分类属性。通过对新算法在测试样例上训练得出的结果表明:改进算法在能有效提高分类的精度,改善ID3算法选择分裂属性时倾向取值较多的不足,总体性能上优于目前广泛应用的ID3算法。