论文部分内容阅读
摘要:数据挖掘是指在海量数据中挖掘出潜在有用的信息,并智能找出内在关联且客观有效地提取有价值信息。在艺术类院校计算机能力考核成绩分析中运用数据挖掘技术对考核成绩进行数据优化处理,研究表明,利用该技术可得到计算机能力考核成绩的好坏与哪些因素有关,为提升计算机教学质量有一定的指导意义。
关键词:数据挖掘;计算机能力考核;成绩分析;关联规则
中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2017)07-0197-03
1前沿
数据挖掘是数据库研究、开发和应用最活跃的技术之一。数据挖掘是采用人工智能的方法对数据库中的数据进行分析、获取知识的过程。它们的结合能更好地为企业或有关部门不同范围的决策分析提供有力的依据。
当前,计算机技术和网络应用在大多数高校,所有高校都在进行校园数字化建设。所以,势必有大量的原始数据,并且要建立庞大的数据库来存储数据,其主要用途是基于简单的查询和统计报表,没有对这些数据进行深层次的挖掘和规律查找,所以这样的数据信息没有充分利用起来。我们应该思考利用目前最前端最科学的技术来发现高校各类数据中的重要信息,并为管理部门决策提供重要依据。这就是数据挖掘技术。
大学计算机基础课是艺术院校大一学生的必须课,以中国美术学院的入学新生为例,大约有1200人,庞大的学生数量如何有效的开展计算机教学值得思考,就需要充分掌握学生的学习兴趣、学生的能力所在及对教师的期望等相关参数进行正确分析。由于大学计算机基础课程是机考,成绩存储在服务器上,其中每个模块的成绩也独立保存,如基础单选题、word操作题、Excel操作题、PPT操作题等。在《大学计算机基础》课程的成绩管理工作中,会有大量的学生成绩原始数据,但对这些数据的处理还停留在简单的数据备份、查询和简单统计阶段,没有对这些成绩数据进行深入的分析,找到有利于提高计算机能力的信息,这是对教学信息资源的浪费。所以,将这些成绩数据分离出来进行数据挖掘是可行的。
通过对数据挖掘技术的研究,抽取中国美术学院《大学计算机基础》课程的成绩信息数据,利用决策树算法生成决策树分析学生成绩优良与哪些因素有关,并对决策树进行修剪,产生分类规则,完成成绩分析决策树模型的建立。
2数据挖掘
2.1基本概念
数据挖掘是指从大型数据库中提取隐含的、未知的、非平凡的极有潜在应用价值的信息或模式,是数据库中一个很有应用价值的新领域。融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。数据挖掘要经过数据采集、预处理、数据分析、结果表示等一系列过程。数据挖掘发现的知识通常是以概念、规则、模式、约束、可视化等形式表现。
2.2数据挖掘方法
数据挖据通过预测未来趋势及行为,做出前瞻性的决策。数据挖掘的目标是从数据库中发现隐含的、有价值的知识。主要有以下三类功能:
(1)关联分析
数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。如计算机能力考核成绩阶段,教师可以根据学生的学习情况做进一步关联性分析,弄清影响学生学习成绩的具体因素,从而为教师的教学改革提供科学指导意见。
(2)聚类分析
数据库中的记录可被划分为一系列有意義的子集,即聚类。聚类技术主要包括传统的模式识别方法和数学分类学。如对不同层次学生的考核可采用层次发进行分析。
(3)概念描述
概念描述就是对某类对象的内涵进行描述,并概况这类对象的有关特征。分为特征性描述和区别性描述。如进行计算机能力考核成绩分析时,可以对学生的姓名、性别、年级等基本信息进行详细描述,让老师在最短时间内了解被考核学生的具体情况。
(4)检测功能
数据挖掘技术得到进一步优化,其中偏差检测是数据挖掘功能中的一种新的应用形式。当所有数据挖掘结束后,用户可以通过偏差检测对挖掘结果加以检查发现数据结果中存在的不足。如计算机能力考核成绩分析遇到不同的考试分数偏差、学生信息偏差,不及时纠正就會导致考核成绩评定结果误差。
3计算机能力考核成绩分析数据的采集
基于本文的研究,基本数据的获取:通过Excel设计问卷调查形式,调查表的学生信息包括:学号、姓名、性别、系别、专业、考试成绩;调查表的课程信息包括:兴趣爱好、课堂讲解、课堂作业、上机时数;调查表的学生考试相关信息包括:单选题、文字录入、word操作、Excel操作、PPT操作、网络应用操作。
通过数据收集,进行整体汇总,存于数据库SOL数据库中,以数据库表的形式进行存储,将学生调查信息数据表与本学期计算机能力考核成绩生产学生成绩分析表。
4计算机能力考核成绩的数据处理
学生参加考试过程中遇到的机器故障、电脑系统问题等都会间接造成学生考试成绩数据重复或不完整性,因此需要对成绩数据进行预处理。
1)数据清洗;处理空缺数据:忽略或用默认值代替。一是学生缺考,需要将这些记录删除;二是某题没做,默认为0,这些记录不可删除。
2)数据集成:删除重复记录来解决数据冗余问题。因机器故障,学生会在不同考场参加多次考试,导致一个学生成绩数据多条,便要将成绩最高保留,删除其他。因学生不及格参加补考或重修,也可能造成冗余的成绩记录,也要删除重复数据。
3)数据转换
构造属性;将考核模块六个方面添加到数据集中,用原有的数据属性构造新属性。具体方法是按照图的分类将每个考察部分的成绩累加得到分数,并计算获得各个考察的总分。如分为理论基础类、office操作类、网络运用类使用三个属性值:20、70、10
数据规范化:我们需要对数据进行标准化处理以便更好进行分析。将各考察方面的得分与该考察的总分相除,总成绩与试卷总分相除,得到一个[0,1]范围数据。具体处理为:理论基础类:实际分数/20;office操作类:实际分数/70;网络运用类:实际分数/10。例如原始数据格式:学号3160200018,理论基础类15,office操作类65,网络运用类9;其标准化后的数据格式为:学号316020018,理论基础类0.60,office操作类0.85,网络运用类1.00。 4)数据规约
数据离散化:考虑到关联规则算法对数据形式的要求,将学生的总成绩离散化。把学生成绩分类等级,即优秀、良好、合格、不合格四种。并且也将各个题型的成绩也进行离散化处理,三个考察方面的成绩也离散化三类,即优秀、良好、不合格。例如各题型的离散化处理为:标准化0.8-1.0为优秀表示A,0.6-0.8为良好表示B,0.6以下为合格表示C。成绩离散化处理为:实际成绩90-100,等级为优秀表示A,80-90等级为良好表示B,60-80等级为合格表示C,60以下等级为不合格表示D。
5计算机能力考核成绩分析的关联数据挖掘
Apriori算法是研究关联规则的最具代表性的方法。主要是两步:得到所有的频繁项集;由频繁项集得到强关联规则。参与关联规则挖掘的学生成绩数据属性有10个,根据文献,现在以2014、2015和2016年大一新生的《大学计算机基础》的考试成绩为样本,实现设计的Apriori算法并应用在考试成绩上。经过多次试验,在保证既不会产生大量的无用规则也不会漏掉重要规则的前提下,最终设定最小支持度minsup=15%,最小置信度minconf=50%,部分关联规则如表1:
学生还有一个属性是专业属性,对专業属性和总成绩进行关联规则挖掘,设置信度和支持度的设置为minsup=15%和minconf=30%,最终产生的关联规则如表2:
挖掘专业、各题型成绩与学生总成绩之间的关联规则,支持度=10%,置信度=60%,如表3所示;
实验结果分析:
由表1得到的关联规则发现;单选优,Word优,学生成绩56%可以达到80到90之间,但Excel优,学生成绩58%可以达到90-100之间;如果单选优,网络运用优,54%的学生成绩可以达到80-90之间;如果单选差,网络运用合格,则60%的学生成绩可以达到60-80之间。
由表2可知,如果学生专业是设计艺术类,45%以上学生成绩的概率达到优秀水平,如果学生专业是造型类,40%以上的学生成绩达到80-90之间。
由表3得到的关联规则发现:专业是书法的学生在Word操作方面表现良的概率达到了56%,造型类的学生在Word操作方面表现优秀的概率达到了70%。
通過对关联规则的解释分析,得到以下结论:
(1)总体加强学生计算机理论知识,强化实践操作能力的应用。
(2)对于传统艺术类和设计艺术类的学生,当学生是设计艺术类,office操作模块成绩表现为优秀的要比传统艺术类高很多,原因是他们平时经常接触电脑,在大一就开设相关设计软件课程,电脑使用频率较高;而学生是传统艺术类,他们的理论知识成绩却优于设计类学生,所以要加强对传统艺术类学生的实践操作能力,多开设课时数量,对于设计类学生要加强基础知识的理解和掌握。
(3)网络运用这个模块,学生整体的考核成绩都趋于优秀,这说明互联网时代下学生频繁接触网络,能够熟练驾驭基本的网络运用,如电子邮件收发,网页文件保存等。
(4)PPT操作题,学生整体的考核成绩都趋于良好以上,这说明学生对图文并茂的课件制作在课堂教学的效果不错,通过查阅学生的独立的ppt课后作业,也反映出对这个软件有了较强的掌握。所以总体这个模块的成绩80分以上。
(5)Excel操作题,35%的学生考核成绩在合格(60分-80分),学生对于excel中的公式的运用、图表制作等理解较弱,对数理逻辑这块思维训练较不理想,一方面和他们的专业有关,因为是艺术生,所以对数学这块的知识就欠缺。另一方面要加强对软件的使用课时,学会举一反三,灵活应用。
6总结
—般的问卷调查只是片面的看到一个统计结果,并没有解释这份问卷出现的问题,分析的对象只是单个属性,忽视了不同属性之间的相关性,其结果往往只是比例分布、平均差或方差等表面情况。希望借助数据挖掘技术,寻找“计算机文化基础”课程考试成绩数据背后隐含的有价值的信息,提高学生的计算机能力,更好地为教师和教学管理部门提供决策支持,全面提升我院“计算机文化基础”的教学质量。为艺术院校计算机基础课能高效、有重点、有针对性地开展教学带来科学的数据,对计算机课堂教学提供了相关的依据和指引。
关键词:数据挖掘;计算机能力考核;成绩分析;关联规则
中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2017)07-0197-03
1前沿
数据挖掘是数据库研究、开发和应用最活跃的技术之一。数据挖掘是采用人工智能的方法对数据库中的数据进行分析、获取知识的过程。它们的结合能更好地为企业或有关部门不同范围的决策分析提供有力的依据。
当前,计算机技术和网络应用在大多数高校,所有高校都在进行校园数字化建设。所以,势必有大量的原始数据,并且要建立庞大的数据库来存储数据,其主要用途是基于简单的查询和统计报表,没有对这些数据进行深层次的挖掘和规律查找,所以这样的数据信息没有充分利用起来。我们应该思考利用目前最前端最科学的技术来发现高校各类数据中的重要信息,并为管理部门决策提供重要依据。这就是数据挖掘技术。
大学计算机基础课是艺术院校大一学生的必须课,以中国美术学院的入学新生为例,大约有1200人,庞大的学生数量如何有效的开展计算机教学值得思考,就需要充分掌握学生的学习兴趣、学生的能力所在及对教师的期望等相关参数进行正确分析。由于大学计算机基础课程是机考,成绩存储在服务器上,其中每个模块的成绩也独立保存,如基础单选题、word操作题、Excel操作题、PPT操作题等。在《大学计算机基础》课程的成绩管理工作中,会有大量的学生成绩原始数据,但对这些数据的处理还停留在简单的数据备份、查询和简单统计阶段,没有对这些成绩数据进行深入的分析,找到有利于提高计算机能力的信息,这是对教学信息资源的浪费。所以,将这些成绩数据分离出来进行数据挖掘是可行的。
通过对数据挖掘技术的研究,抽取中国美术学院《大学计算机基础》课程的成绩信息数据,利用决策树算法生成决策树分析学生成绩优良与哪些因素有关,并对决策树进行修剪,产生分类规则,完成成绩分析决策树模型的建立。
2数据挖掘
2.1基本概念
数据挖掘是指从大型数据库中提取隐含的、未知的、非平凡的极有潜在应用价值的信息或模式,是数据库中一个很有应用价值的新领域。融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。数据挖掘要经过数据采集、预处理、数据分析、结果表示等一系列过程。数据挖掘发现的知识通常是以概念、规则、模式、约束、可视化等形式表现。
2.2数据挖掘方法
数据挖据通过预测未来趋势及行为,做出前瞻性的决策。数据挖掘的目标是从数据库中发现隐含的、有价值的知识。主要有以下三类功能:
(1)关联分析
数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。如计算机能力考核成绩阶段,教师可以根据学生的学习情况做进一步关联性分析,弄清影响学生学习成绩的具体因素,从而为教师的教学改革提供科学指导意见。
(2)聚类分析
数据库中的记录可被划分为一系列有意義的子集,即聚类。聚类技术主要包括传统的模式识别方法和数学分类学。如对不同层次学生的考核可采用层次发进行分析。
(3)概念描述
概念描述就是对某类对象的内涵进行描述,并概况这类对象的有关特征。分为特征性描述和区别性描述。如进行计算机能力考核成绩分析时,可以对学生的姓名、性别、年级等基本信息进行详细描述,让老师在最短时间内了解被考核学生的具体情况。
(4)检测功能
数据挖掘技术得到进一步优化,其中偏差检测是数据挖掘功能中的一种新的应用形式。当所有数据挖掘结束后,用户可以通过偏差检测对挖掘结果加以检查发现数据结果中存在的不足。如计算机能力考核成绩分析遇到不同的考试分数偏差、学生信息偏差,不及时纠正就會导致考核成绩评定结果误差。
3计算机能力考核成绩分析数据的采集
基于本文的研究,基本数据的获取:通过Excel设计问卷调查形式,调查表的学生信息包括:学号、姓名、性别、系别、专业、考试成绩;调查表的课程信息包括:兴趣爱好、课堂讲解、课堂作业、上机时数;调查表的学生考试相关信息包括:单选题、文字录入、word操作、Excel操作、PPT操作、网络应用操作。
通过数据收集,进行整体汇总,存于数据库SOL数据库中,以数据库表的形式进行存储,将学生调查信息数据表与本学期计算机能力考核成绩生产学生成绩分析表。
4计算机能力考核成绩的数据处理
学生参加考试过程中遇到的机器故障、电脑系统问题等都会间接造成学生考试成绩数据重复或不完整性,因此需要对成绩数据进行预处理。
1)数据清洗;处理空缺数据:忽略或用默认值代替。一是学生缺考,需要将这些记录删除;二是某题没做,默认为0,这些记录不可删除。
2)数据集成:删除重复记录来解决数据冗余问题。因机器故障,学生会在不同考场参加多次考试,导致一个学生成绩数据多条,便要将成绩最高保留,删除其他。因学生不及格参加补考或重修,也可能造成冗余的成绩记录,也要删除重复数据。
3)数据转换
构造属性;将考核模块六个方面添加到数据集中,用原有的数据属性构造新属性。具体方法是按照图的分类将每个考察部分的成绩累加得到分数,并计算获得各个考察的总分。如分为理论基础类、office操作类、网络运用类使用三个属性值:20、70、10
数据规范化:我们需要对数据进行标准化处理以便更好进行分析。将各考察方面的得分与该考察的总分相除,总成绩与试卷总分相除,得到一个[0,1]范围数据。具体处理为:理论基础类:实际分数/20;office操作类:实际分数/70;网络运用类:实际分数/10。例如原始数据格式:学号3160200018,理论基础类15,office操作类65,网络运用类9;其标准化后的数据格式为:学号316020018,理论基础类0.60,office操作类0.85,网络运用类1.00。 4)数据规约
数据离散化:考虑到关联规则算法对数据形式的要求,将学生的总成绩离散化。把学生成绩分类等级,即优秀、良好、合格、不合格四种。并且也将各个题型的成绩也进行离散化处理,三个考察方面的成绩也离散化三类,即优秀、良好、不合格。例如各题型的离散化处理为:标准化0.8-1.0为优秀表示A,0.6-0.8为良好表示B,0.6以下为合格表示C。成绩离散化处理为:实际成绩90-100,等级为优秀表示A,80-90等级为良好表示B,60-80等级为合格表示C,60以下等级为不合格表示D。
5计算机能力考核成绩分析的关联数据挖掘
Apriori算法是研究关联规则的最具代表性的方法。主要是两步:得到所有的频繁项集;由频繁项集得到强关联规则。参与关联规则挖掘的学生成绩数据属性有10个,根据文献,现在以2014、2015和2016年大一新生的《大学计算机基础》的考试成绩为样本,实现设计的Apriori算法并应用在考试成绩上。经过多次试验,在保证既不会产生大量的无用规则也不会漏掉重要规则的前提下,最终设定最小支持度minsup=15%,最小置信度minconf=50%,部分关联规则如表1:
学生还有一个属性是专业属性,对专業属性和总成绩进行关联规则挖掘,设置信度和支持度的设置为minsup=15%和minconf=30%,最终产生的关联规则如表2:
挖掘专业、各题型成绩与学生总成绩之间的关联规则,支持度=10%,置信度=60%,如表3所示;
实验结果分析:
由表1得到的关联规则发现;单选优,Word优,学生成绩56%可以达到80到90之间,但Excel优,学生成绩58%可以达到90-100之间;如果单选优,网络运用优,54%的学生成绩可以达到80-90之间;如果单选差,网络运用合格,则60%的学生成绩可以达到60-80之间。
由表2可知,如果学生专业是设计艺术类,45%以上学生成绩的概率达到优秀水平,如果学生专业是造型类,40%以上的学生成绩达到80-90之间。
由表3得到的关联规则发现:专业是书法的学生在Word操作方面表现良的概率达到了56%,造型类的学生在Word操作方面表现优秀的概率达到了70%。
通過对关联规则的解释分析,得到以下结论:
(1)总体加强学生计算机理论知识,强化实践操作能力的应用。
(2)对于传统艺术类和设计艺术类的学生,当学生是设计艺术类,office操作模块成绩表现为优秀的要比传统艺术类高很多,原因是他们平时经常接触电脑,在大一就开设相关设计软件课程,电脑使用频率较高;而学生是传统艺术类,他们的理论知识成绩却优于设计类学生,所以要加强对传统艺术类学生的实践操作能力,多开设课时数量,对于设计类学生要加强基础知识的理解和掌握。
(3)网络运用这个模块,学生整体的考核成绩都趋于优秀,这说明互联网时代下学生频繁接触网络,能够熟练驾驭基本的网络运用,如电子邮件收发,网页文件保存等。
(4)PPT操作题,学生整体的考核成绩都趋于良好以上,这说明学生对图文并茂的课件制作在课堂教学的效果不错,通过查阅学生的独立的ppt课后作业,也反映出对这个软件有了较强的掌握。所以总体这个模块的成绩80分以上。
(5)Excel操作题,35%的学生考核成绩在合格(60分-80分),学生对于excel中的公式的运用、图表制作等理解较弱,对数理逻辑这块思维训练较不理想,一方面和他们的专业有关,因为是艺术生,所以对数学这块的知识就欠缺。另一方面要加强对软件的使用课时,学会举一反三,灵活应用。
6总结
—般的问卷调查只是片面的看到一个统计结果,并没有解释这份问卷出现的问题,分析的对象只是单个属性,忽视了不同属性之间的相关性,其结果往往只是比例分布、平均差或方差等表面情况。希望借助数据挖掘技术,寻找“计算机文化基础”课程考试成绩数据背后隐含的有价值的信息,提高学生的计算机能力,更好地为教师和教学管理部门提供决策支持,全面提升我院“计算机文化基础”的教学质量。为艺术院校计算机基础课能高效、有重点、有针对性地开展教学带来科学的数据,对计算机课堂教学提供了相关的依据和指引。