论文部分内容阅读
摘要:该文将针对教师教学评价系统开发和使用中存在的主要问题,如数据处理不合理,功能不完善等问题进行分析,提出联机分析处理技术、利用数据仓库技术和数据挖掘技术,对要评测的数据进行采样分析处理。重点讨论以CART算法为中心的决策树生成算法,利用其属性的相关性并对算法进行了相应的改进。测试数据证明:改进后的算法对所生成的规则集的数量和大小有优化作用,有效地缩短处理的时间,使用改进后的算法,对教学评价数据进行知识挖掘,得到决策规则,用以辅助学校相关决策的改进和制定。
关键词:数据挖掘;教学评价;联机分析处理;决策树
中图分类号:G642 文献标识码:A 文章编号:1009-3044(2015)20-0001-03
Design and Development of Teaching Evaluation System that Based on Data Mining
FANG Fang,ZHANG Peng
(Department of Compute Science, Xiangnan University, Chenzhou 423000, China)
Abstract: On account of the low degree of automation and scientific data processing in existing teaching evaluation system, the data warehouse technology, online analytical processing as well as data mining techniques can be used for the evaluation of the data sampling processing. With focusing on the CART (Classification and Regression Trees algorithm) based decision tree generation algorithm, made use of its properties related to overcome shortcomings of it and then improve the algorithm itself. Through tests to demonstrate the improved algorithm can effectively shorten the processing time and reduce the size and number of the generated rule sets. By taking advantage of the improved algorithm, to help data mining on knowledge of teaching and then using generated decision rules to improve school-related decision-making and formulation.
Key words: data mining; teaching evaluation; online analytical processing; decision tree
1 概述
数据仓库和OLAP技术在教学管理系统中的实际应用是在最近才被关注。目前相关的研究主要集中在如何去构建学校的数据仓库,利用OLAP技术对数据进行处理和分析,怎样以学校内部各个数据库中的相关数据为基础,其目的是提高学校的教育能力和水平。
文献[1]主要讨论了粗糙集的基础理论用于教学评价数据处理地方法和决策树分类挖掘,为了让算法再好的应用于所开发的系统中,对ID3数据挖掘算法进行了改进,使其能更好的实现辅助决策功能。文献[2]分析了一种基于用户举的权重推荐模型,以此模型为基础对关联规则算法进行改进从而提出MWFP算法。文献[3] 对各种影响教学水平提高的原因及教学评价的各项指标进行了分析,使用数据挖掘的方法影响和提示教师教学水平因素构建的教学评价决策树模型。文献[4]其OLAP解决方案采用的是ORACLE业务智能系统采用B/S架构方式,能够方便维护和部署。
本文通过OLAP技术可以发现教学评价结果和教师性别、学历、年龄、教龄、职称之间的关系,教师性别与学生异同对评价结果的一些影响,学生考试成绩和评测结果与学生基本信息之间的关系等。通过改进的CART决策树生成算法进行数据挖掘,寻找出教学评价过程中各元素与教学评价结果之间的关系。
2 CART决策树数据挖掘的算法和改进
CART算法是决策树算法的典型代表,采用的策略是先生成二叉决策树,然后进行修剪处理。二叉树的生成采用好的方法可以提高决策树生的效率,在分类准确性的基础上修剪处理又可以减小决策树的规模,进一步提高了可应用的范围和理解性。了进一步简化决策树的结构,在CART的基础上又提出了一种基于属性归约的CART算法。为了方便用户根据自身实际需求调整阈值,有更高的决策准确率,CART算法还考虑了决策属性和测试属性之间的联系,用专业的分类经验作指导,加快了决策树的分类的阈值可调和生成。
通过改进后的CART决策树算法步骤如下:
1)对于训练数据进行预处理应用与选择目标关系密切的数据集体,对“脏数据”进行清理生成符合CART算法处理的数据集。
2)如果待处理数据通过决策树中间节点的属性判别被认为是大于某决策阈值,则此阈值的分支处生成一个叶子节点进行标注。
3)对全部测试数据属性进行分析计算得到决策属性和每一个测试属性之间的相关性。 4)选择相关度比较小的测试属性集test_attribute。
5)假设D为数据样本集合,对其每一个样本数据去除test_attribute。
6)调用CART(D)进行一些处理。
针对改进后的CART算法性能进行分析,其方法是利用UCI实验数据库中的根本依次使用改进后的CART算法和常规CART算法进行处理,分析处理后的结果证明改进算法的有效性。
无关属性对于决策树算法准确率与效率的影响比较大。通过实验证明,在标准的数据集中增加一个无关的二值属性使决策树生成算法的性能显著下降,所有在应用决策算法之前,需要对属性集进行数据缩减处理和减少数据维数,提高算法的效率和准确率。
实验数据基本特征,如表1所示:
表1 实验数据特征描述
[数据库名称\
关键词:数据挖掘;教学评价;联机分析处理;决策树
中图分类号:G642 文献标识码:A 文章编号:1009-3044(2015)20-0001-03
Design and Development of Teaching Evaluation System that Based on Data Mining
FANG Fang,ZHANG Peng
(Department of Compute Science, Xiangnan University, Chenzhou 423000, China)
Abstract: On account of the low degree of automation and scientific data processing in existing teaching evaluation system, the data warehouse technology, online analytical processing as well as data mining techniques can be used for the evaluation of the data sampling processing. With focusing on the CART (Classification and Regression Trees algorithm) based decision tree generation algorithm, made use of its properties related to overcome shortcomings of it and then improve the algorithm itself. Through tests to demonstrate the improved algorithm can effectively shorten the processing time and reduce the size and number of the generated rule sets. By taking advantage of the improved algorithm, to help data mining on knowledge of teaching and then using generated decision rules to improve school-related decision-making and formulation.
Key words: data mining; teaching evaluation; online analytical processing; decision tree
1 概述
数据仓库和OLAP技术在教学管理系统中的实际应用是在最近才被关注。目前相关的研究主要集中在如何去构建学校的数据仓库,利用OLAP技术对数据进行处理和分析,怎样以学校内部各个数据库中的相关数据为基础,其目的是提高学校的教育能力和水平。
文献[1]主要讨论了粗糙集的基础理论用于教学评价数据处理地方法和决策树分类挖掘,为了让算法再好的应用于所开发的系统中,对ID3数据挖掘算法进行了改进,使其能更好的实现辅助决策功能。文献[2]分析了一种基于用户举的权重推荐模型,以此模型为基础对关联规则算法进行改进从而提出MWFP算法。文献[3] 对各种影响教学水平提高的原因及教学评价的各项指标进行了分析,使用数据挖掘的方法影响和提示教师教学水平因素构建的教学评价决策树模型。文献[4]其OLAP解决方案采用的是ORACLE业务智能系统采用B/S架构方式,能够方便维护和部署。
本文通过OLAP技术可以发现教学评价结果和教师性别、学历、年龄、教龄、职称之间的关系,教师性别与学生异同对评价结果的一些影响,学生考试成绩和评测结果与学生基本信息之间的关系等。通过改进的CART决策树生成算法进行数据挖掘,寻找出教学评价过程中各元素与教学评价结果之间的关系。
2 CART决策树数据挖掘的算法和改进
CART算法是决策树算法的典型代表,采用的策略是先生成二叉决策树,然后进行修剪处理。二叉树的生成采用好的方法可以提高决策树生的效率,在分类准确性的基础上修剪处理又可以减小决策树的规模,进一步提高了可应用的范围和理解性。了进一步简化决策树的结构,在CART的基础上又提出了一种基于属性归约的CART算法。为了方便用户根据自身实际需求调整阈值,有更高的决策准确率,CART算法还考虑了决策属性和测试属性之间的联系,用专业的分类经验作指导,加快了决策树的分类的阈值可调和生成。
通过改进后的CART决策树算法步骤如下:
1)对于训练数据进行预处理应用与选择目标关系密切的数据集体,对“脏数据”进行清理生成符合CART算法处理的数据集。
2)如果待处理数据通过决策树中间节点的属性判别被认为是大于某决策阈值,则此阈值的分支处生成一个叶子节点进行标注。
3)对全部测试数据属性进行分析计算得到决策属性和每一个测试属性之间的相关性。 4)选择相关度比较小的测试属性集test_attribute。
5)假设D为数据样本集合,对其每一个样本数据去除test_attribute。
6)调用CART(D)进行一些处理。
针对改进后的CART算法性能进行分析,其方法是利用UCI实验数据库中的根本依次使用改进后的CART算法和常规CART算法进行处理,分析处理后的结果证明改进算法的有效性。
无关属性对于决策树算法准确率与效率的影响比较大。通过实验证明,在标准的数据集中增加一个无关的二值属性使决策树生成算法的性能显著下降,所有在应用决策算法之前,需要对属性集进行数据缩减处理和减少数据维数,提高算法的效率和准确率。
实验数据基本特征,如表1所示:
表1 实验数据特征描述
[数据库名称\