论文部分内容阅读
分类是数据挖掘领域中的一个重要研究课题。在分类的过程中,首先给定一个包含多条记录的训练集,每条记录都包含多个属性,其中一个属性标明每条记录属于哪一类,我们称之为类标号。分类的目的就是建立一个以类标号属性除外的其它属性为判定条件的模型,通过这个模型可以对以后未知类标号的记录进行正确分类。决策树方法是分类中最常用的工具之一。它是一个类似于流程图的树状模型,其中每个内部节点表示一个属性测试,每个分枝代表一个测试输出,而每个树叶节点代表“类”或“类分布”。通过决策树模型对一条记录进行分类就是通过按照模型中属性测试结果从根到叶找到一条路径,最后叶节点的类标号就是该记录的分类结果。 本课题研究的内容是建立一个完整的决策树生成系统。它包括数据预处理、决策树的生成、决策树剪枝、分析和评估、生成分类规则五个部分。数据预处理中主要包括数据清洗(减少噪声或处理丢失的值)、相关分析(删除不相关或冗余属性)太原理工大学硕士学位论文决策树生成系统和数据变换(如概化数据到较高的概念层,或对数据规范化)等内容。决策树生成则是按照某种属性评价方法递归地对各个属性进行评价,找到最优的分割条件,生成一棵完全生长的决策树。在这个阶段我们采用了信息增益法、Gini索引法和Relief算法三种属性评价方法,并在实验结果部分对三者的性能进行了比较。决策树剪枝则是为了防止在决策树生成阶段生成的决策树中存在的“过适应”问题和提高决策树的分类准确率,对生成的决策树按照一定的方法进行剪枝。在此我们实现了最小描述长度法(MDL),因为该算法在准确率、剪枝后决策树的大小和运行速度方面都有很大的优势。决策树分析和评估阶段主要是对生成的决策树的各方面的性能进行评估。本系统实现的是保持法和10折交叉确认法,主要是对生成的决策树模型进行准确率方面的评估。在生成规则阶段主要是将决策树转化为比较直观的工F一THEN规则形式,让用户能更好地理解分类结果。 从实验结果中我们可以看到:信息增益法和Gini算法相比,无论是在生成节点数还是在运行速度上都比较相似,二者的分类速度都要快于Rehef算法,但Rehef算法在某些特定的数据库上生成的结果要明显优于前两者。并且我们在税务信息太原理工大学硕士学位论文决策树生成系统系统中的数据上应用该系统也取得了比较满意的分类结果。但是我们研究的目的是生成一个紧凑的,高准确率的、易于理解和具有可伸缩性的决策树系统,本系统在运行效率、与数据仓库集成、对复杂数据进行分析等方面还存在许多不足之处,我们将会在以后的工作中做进一步的改进。