论文部分内容阅读
数据挖掘是2 0世纪末兴起的数据智能分析技术,它可以从数据库、数据仓库以及其它各种数据库中的大量数据中,自动抽取或发现有用的模式知识。在这一过程中,数据分类是数据挖掘领域研究的重要课题。目前用于分类的方法有很多种,其中决策树分类方法以其算法理论清晰、易被理解以及容易转换成分类规则等优点而被广泛研究与应用。本文以“嵌入式系统网上智能教学平台”建设为背景,目的是研究如何将数据挖掘技术与现有的数据库系统相结合,从海量特征的数据中提取出隐藏在数据之中的有用信息,为系统管理者和决策者提供综合分析。通过对数据挖掘基本原理、基本算法的研究。开发了基于决策树算法的学生评估工具模块。以改进的决策树ID3算法为基础,根据学生成绩库中的信息以及其它库中有关学生基本数据的信息,建立一个决策树成绩评估模型,对学生进行相应的综合分析评估。通过对几种典型的决策树算法进行分析比较,本文提出一种改进的ID3算法。该算法的思想是首先将泰勒公式原理与ID3算法的属性选择标准一信息熵的求解相结合,对ID3算法信息熵的求解进行简化,改变了决策树算法中属性选择的标准,减小了算法的计算复杂度,提高了算法运行效率;然后再赋予每个属性简化后的信息熵一个权值N,N的取值取决于每个属性的取值个数,用以平衡每个属性对数据集的不确定程度,使得属性的选择更加合理化,避免选择的属性与实际不相符。最后在Eclipse平台上利用Java语言分别实现改进前后的ID3算法。实验结果表明,改进后的ID3算法提高了决策树的构建速度,减少了算法的计算运行时间,同时也克服了ID3算法往往偏向于选择取值较多的属性作为测试属性的缺陷。并且随着数据规模的增大,决策树的分类性能表现得越好。理论分析和实验结果表明,本文提出的改进算法改善了原始决策树ID3算法的性能,表现出了良好的分类效果。