数据挖掘技术在计算机等级考试成绩中的分析研究

来源 :电脑知识与技术 | 被引量 : 0次 | 上传用户:c1061088
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:利用数据挖掘技术分析某高职院校全国计算机等级考试成绩,从中发现了影响考试成绩的一些隐藏信息,得到的结论对于提高学生的考试通过率和教师今后的教学起着指导作用。
  关键词:数据挖掘;等级考试;关联规则
  中图分类号:TP3911 文献标识码:A 文章编号:1009-3044(2015)13-0014-02
  Abstract: Analysis of data mining technology the National computer grade examination results of Vocational Colleges, Some of the hidden information that has been found to affect the results of the exam is found. The conclusion is of guiding function for improving students’ examination pass rate and teachers’ future teaching.
  Key words: data mining; grade examination; association rules
  1 引言
  随着计算机技术的不断发展,越来越多的高校开始重视计算机应用基础课程的教学,《计算机应用基础》作为一门必修的公共基础课,很多高职院校对该课程的考核不再是采用单一的期末考试,而是把计算机等级考试成绩列为对考核学生该课程的重要内容和对教师教学效果的评价依据。以笔者所任职的学院为例,学院将全国计算机等级考试一级的通过率作为考核学生的《计算机应用基础》课程的成绩,而且该证书也得到了很多用人单位的认可,也成为了学生毕业找工作的一个敲门砖,因此学院非常重视。鉴于各种原因,学生的通过率普遍不高,事实上,影响学生考试通过率的原因很多,本文就该问题引入了数据挖掘技术,目的是从中找到影响学生成绩的各种关联因素,以此来制定整改措施,为后续的教学活动提供参考,从而提高学生计算机等级考试的通过率。
  2 数据挖掘技术
  数据挖掘技术是从海量的、不完整的、模糊的、有噪声的以及随机的原始数据中搜索出隐含在其中的,之前未知的而具有利用价值的信息的过程。如何对一些直观的或隐含的海量数据进行分析,并且发现各数据间存在的联系,提取出有用的模式,用以指导实际工作是数据挖掘技术的关键所在。由于数据挖掘技术的优越性和不断成熟,目前该技术已经广泛应用到商业决策、生产控制、工程设计和金融业等多个领域。
  数据挖掘的分析方法有多种,关联规则分析、聚类规则分析、预测分析、分类规则分析等都是常用的挖掘方法。
  数据挖掘的过程包括以下几步:首先对数据进行收集和预处理,对其进行消噪,去掉错误或冗余数据等处理,使之成为目标数据,为下一步的操作做准备,同时要确定挖掘方法;然后是数据变换,根据之前的挖掘算法建立分析模型;接下来是数据挖掘和模式评估,将上一步得到的经过变换后的数据进行挖掘;最后是结果分析和知识同化,解释并评估结果,将分析后得到的知识应用到实际的案例中。在数据挖掘整个过程中,牵涉到了前期大量的准备与规划工作,几乎有80%的时间和精力花费在了数据的预处理阶段,而且数据预处理阶段得出的数据质量的高低也直接决定了挖掘后的结果。因此,在进行数据挖掘分析之前,还是很有必要做好前期的准备工作。
  3 数据挖掘技术在计算机等级考试成绩分析中的应用
  本文挖掘的数据来源于作者所任教学校的几次全国计算机等级考试一级成绩。由于每次考试都产生几千条数据,久而久之,大量的数据存储在教务系统中,并没有得到充分的利用,如何利用好这些数据为以后的教学提供服务是数据挖掘的目的所在。在数据挖掘之前,需要对数据进行清理,比如对于一些缺考的学生,还有一些因漏答造成数据不完整的记录等都需要将其清除掉。
  3.1应用关联规则分析教师的教龄、职称、评教情况在计算机等级考试成绩中的影响
  关联分析是在当前教学活动中使用很频繁的有效的方法。它用于发现数据库中数值之间的相关性,从中找寻一些潜在的有用信息用于指导以后的教学工作。目前比较常用的关联分析方法有关联规则和序列模式。比如从海量的超市购物数据中发现有趣的关联关系,可以帮助商家进行改变营销策略,如促销的时机、交叉销售、货架商品的摆放设计等。
  对于某些高职院校,由于取消了单一的期末考试,往往将学生英语过级和计算机等级考试的通过率作为评价教师教学效果的依据。通过运用关联规则来分析学生的考试成绩,挖掘出一些可能会影响学生过级率的一些相关因素,对今后的教学过程起着重要的指导作用。现将我院计算机等级考试成绩进行如下分析:
  随机抽取本院担任计算机教学的教师信息和学生计算机等级考试成绩集成教师教学综合信息表。然后将教师的教龄、职称、评教情况、所教授对应学生的成绩录入数据库中,其他信息不做处理。为了简化分析,接下来需要将数据进行抽象和离散化处理。优秀的为3(90~100),良好的为2(80~89),及格的为1(60~79),不及格的为0(0~59)。教龄分为四个阶段,分别用A1(1-5)、A2(6-10)、A3(11-20)、A4(21-30)表示,职称分别用B1(初级)、B2(中级)、B3(副高)、B4(正高)表示,评教情况分别用C1(好)、C2(一般)、C3(较差)表示,D1(3,2,1,0)分别表示考试成绩的等级。
  数据经预处理后的视图如下:
  根据关联规则算法,先预设最小支持度以及最小可信度,得到如下结论:教师的教龄和职称对于过级率的影响并不直接,而跟教师的评教情况却不无关系,教师的评教情况越好,对应的学生考试成绩也就越好。因此,通过及时反馈学生对教师的教学评价,来加强教师的教学质量,对提高学生等级考试成绩是非常重要的。   3.2 应用聚类算法对等级考试试题进行分析
  众所周知,计算机一级考试题型有以下6种:选择题、Windows7操作题、文字处理、电子表格、演示文稿和网络操作题。在这里将采用聚类算法中的K-Means算法对这6个属性间的聚类分析进行挖掘。
  为了更好地进行聚类分析,首先需要对数据实行标准化。在实行标准化时需遵循的原则是:将每个题型的实际得分数除以该题型的总分,如对于文字处理题,某考生得分为20分,文字处理题的总分为25分,20/25=0.8。同样的方法,由此得到最终的标准化值范围是[0,1]。其次是对数据进行聚类分析,传统的K-Means 算法采取的是随机选择初始聚类中心的原则,这就使得不同的初始聚类中心会造成聚类结果的差异和不稳定。为了使聚类结果具有更好的稳定性,现将学生的考试成绩分布情况大致分为优秀、良好、及格和不及格4个等级。通过不同的等级来确定该等级的初始聚类中心。最后是对生成的聚类结果进行分析。例如学生在网络操作题上普遍得分率较高,在电子表格处理题上面得分率较低。通过分析教师能够直观的了解学生对各知识点的掌握程度,便于以后在实际的教学中做出针对性的改进。同时,教师也可根据各类学生的学习特点做合适的指导,调整教学方法及相应内容,从而帮助学生顺利通过考试。
  3.3 应用分类算法分析影响计算机等级考试成绩的其他因素,如有无计算机基础、平时上机作业成绩、是否参加了考前培训、学习兴趣等
  所谓分类是对一个事件或者一组对象依据他们本身的特性来进行分类。分类的目的是找到一组能够科学地描述数据典型特征的模型。以便将来能够识别未来数据的类别或归属。使用分类模型不但可以分析现有的数据,而且可以预测未来。分类和预测作为两类主要的预测问题,根据它们的不同分别用于离散数据和连续数据的预测。对于影响计算机等级考试成绩的诸多因素以及数据的特点,将应用分类算法来对其各种影响因素来进行分析。分析的流程为:首先,采集数据,主要包括的数据有以下几个方面:学生基本信息(学号、姓名、性别、院系、班级);学生的学习情况信息(有无计算机基础、是否参加了考前培训、学习兴趣等);这些信息主要是通过对学生的问卷调查来获得,成绩(平时上机作业成绩、等级考试成绩)。其次,对获取的数据预处理。在预处理之前需要对数据进行集成和清理,这一步的目的是为了填补一些遗漏的数据,从而有利于将上述收集到的各种数据通过数据库技术生成一个标准的学生成绩数据库。然后就是数据转换,即对数据进行离散化操作。接着是数据消减,其目的是缩减挖掘数据的规模,但前提条件是不能影响最终的挖掘结果。最后是进行数据分类挖掘并产生分类规则。通过上述的几个步骤可得出哪些因素是影响了学生考试成绩的。
  如IF平时上机作业成绩=优秀 AND有无计算机基础=有AND参加考前培训=是 THEN 等级考试通过率=96%
  IF平时上机作业成绩=良好 AND有无计算机基础=有AND参加考前培训=是THEN 等级考试通过率=75%
  IF平时上机作业成绩=及格 AND有无计算机基础=有AND参加考前培训=无 THEN 等级考试通过率=50%
  …
  4 结束语
  本文利用了数据挖掘技术中的关联规则分析、聚类算法和分类算法对全国计算机等级考试一级成绩进行了分析,科学、客观地找出了影响考试成绩的一系列因素。其分析结果可以帮助学生发现《计算机应用基础》这门课程的某些薄弱环节,对于以后提高学生的考试通过率提供了帮助。同时对于教师今后的教学方法的改进和学院对于等级考试的相关工作也起着指导作用。
  参考文献:
  [1] 刘芳,林海霞.数据挖掘技术在高校计算机等级考试成绩分析中的应用[J].广西轻工业,2008(11).
  [2] 曾旭,司马宇.K-Means算法在计算机等级考试成绩分析中的应用[J].软件导刊,2012(12).
  [3] 袁小玲,李瑞. 数据挖掘技术在高职院校学生成绩管理中的应用分析与探究[J].网络与信息工程, 2014(13).
其他文献
摘要:公安微博已成为警民交互的重要媒介,如何客观地分析和衡量公安微博的社会影响力变得越来越重要。结合新媒体在虚拟社会中的传播规律,以及公安微博自身的特点与社会作用,从微博影响力的广度、深度、强度等方面着手,研究建立公安微博影响力评价指标体系;并采用模糊综合评价与线性加权相结合的方法来度量公安微博影响力,为公安微博的进一步完善提供了理論指导和依据,也为其它微博影响力的全面评估提供了借鉴。  关键词:
阐述全日制专业学位研究生培养过程中需关注的若干基本导向、实践能力训练和管理体制革新,认为高校可考虑赋予行(企)业招生录取参与权、培养过程指导权以及学位水准评价权等三
摘要:信息化时代带来了知识和技能的爆炸,学习者学习方式和手段的多样化,直接导致了学习这学分获取的多样化。学生获取的学分不再局限与单纯的高等教育学分,而是分散成自主学分、实践学分、培训学分等各种体系,为了能在一个统一的平台上完成学分的转换体系,国家层面上设计的学分银行是一个非常重要的手段  关键词:学分银行;职业认证;学分转换;慕课  中图分类号:G424 文献标识码:A 文章编号:1009-304
当前,在国际金融危机影响中国沿海地区经济发展之时,中西部一些地区却展露出转型发展的潜力。专家认为,不同区域应该借调控带来的新契机。形成各自新的产业优势。    东北:调控带来三大发展契机    “东北地区经济发展既面临更为严峻的挑战,也面临着重大的机遇”。吉林省社会科学院软科学所所长丁晓燕这样说。他表示,东北地区面对复杂多变的国际国内形势,应牢牢把握实施老工业基地振兴战略的重大历史机遇,致力于提升
以改善民生、破解制约发展深层次矛盾、加快转变发展方式为依托,通过经济、环境、社会再调整,寻找最佳路径去实现经济绿色发展与包容性增长。    1月19日,在国家发改委联合亚洲开发银行举行的“中国‘十二五’规划的方向和政策国际研讨会”上,国家发改委副主任徐宪平对外宣布,中国“十二五”规划编制工作已经全面启动。   围绕这一规划,中国政府将数百个课题面向全球公开招标,首度就五年发展规划联手国际机构开展课
摘要:基于大学物理实验考核现状针对性地提出了大学物理实验综合量化考核模式。为了能更好地反映学生真实的大学物理实验水平,拓展和优化了大学物理实验考核范围,制订和规范了实验考核流程和量化标准。实践表明这种实验考核模式更加科学化和合理化。  关键词:大学物理实验;实验考核;综合考核;量化  中图分类号:G642 文献标识码:A 文章编号:1009-3044(2016)02-0147-03  Abstra
国家统计局10月13日公布数据显示,三季度我国全国企业景气指数为124.4,比二季度回升8.5点。有关专家指出,企业景气指数继续回升显示经济向好趋势未变,经济复苏速度会加快。但是,经济回升过程中依然存在不确定因素,中小型企业尚未走出经营困难,需要更多的政策支持。  同时,三季度全国企业家信心指数回升至120.1,比二季度提高9.9点,比一季度提高19点。    经济回升速度将加快    数据显示,
摘要:分类是数据挖掘的一项重要研究内容。在分析了现有分类方法后,提出了基于最小距离的多中心向量的增量分类算法。该方法首先按照属性类聚类训练样本,通过类间调整,消除类域空间重叠。针对增量分类,提出了多中心向量的分类算法,通过空间区域划分的方法,减少增量分类选取的代表样本数量。实验结果表明,与文献[14]提出的增量分类算法相比,分类精度近似相同,但所需时间复杂度和存储空间则有不同程度的下降,这对大数据