基于数据挖掘技术的大学生上课考勤管理

来源 :学习周报·教与学 | 被引量 : 0次 | 上传用户:gem364258013
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:校园大数据分析是目前大数据研究的重要领域,针对历年积累的大量学生考勤数据,传统的数据库技术几乎无法完成全量的数据分析,串行的计算方法很难在短时间内计算出分析结果。大数据技术是解决此类问题的一种较好的方法,本文基于数据挖掘技术的条件下,通过对大学生上课考勤数据进行提取、转换与加载,挖掘分析大学生上课考勤数据是否存在考勤行为异常的现象,对大学生上课考勤管理的完善与发展具有一定的参考借鉴意义。
  关键词:数据挖掘;考勤管理;数据处理
  引言:
  20世纪80年代以来,随着计算机信息技术产业的快速发展,数据库技术得到了广泛的应用,存储在各个领域的信息和数据类型也在迅速增长。在过去,仅仅依靠数据库管理系统和统计方法来搜索和分析信息的机制和模型远远不能满足现实社会的需要。因此,如何从海量数据中获取有价值的信息或知识,将是当前一项极其艰巨的任务。为了满足这一需求,消除传统数据库操作的弊端,数据挖掘技术得到了飞速的发展和进步,改变了数据内部使用的新思路。采用数字化手段进行高校大学生上课考勤管理日益普遍,大量的考勤数据中隐含了可用于指导教学的信息,如何将这些信息挖掘出来是值得关注的问题。本文以数据挖掘技术为基础,对大学生上课考勤数据进行处理与分析,对大学生上课考勤管理具有重要的意义。
  一、数据挖掘概述
  (一)数据挖掘的定义
  数据挖掘技术是基于高科技的先进统计技术,学术界对数据挖掘技术没有明确的定义。但它可以从广义上定义,换句话说,数据挖掘的过程就是提取大量不完整的模糊数据。简而言之,数学方法被用于从数据中提取知识。数据挖掘是另一种知识研究的方法和手段,数据挖掘是一门跨学科的技术,它不仅应用了高等数学中的概率论和统计学知识,而且还应用于数据库和计算机中的数据存储。数据挖掘过程还包括机器学习内容。大量数据的分析和研究模式化,需要各个领域的知识相互对照。从数据中提取的知识有助于有效地解决一些问题。数据挖掘技术包括数据预处理、与主题相关的数据匹配、数据集成和数据转换,以及使用智能方法收集数据以发现其中包含的规则。
  (二)数据挖掘的流程
  一般的数据挖掘步骤是确定数据挖掘的目标、收集数据、提取目标数据、数据预处理、构建挖掘模型、模型评估、知识表示等过程,具体介绍如下:
  1.建立立项目目标:挖掘项目必须包括完成项目的价值所在。
  2.数据收集:以既定的系统方式收集和测量有针对性的变量的信息,来源可以是网络提取、业务调查。
  3.数据预处理:将收集的数据“格式化”,以便于之后的模型训练与统计。
  4.数据挖掘:通过一些算法模型或者分析方法,将收集到的原始数据转换成有用信息的过程。
  5.模型评价:数据挖掘结果的综合评价,数据挖掘模型、挖掘结果的判定,算法执行时间及稳定性等。
  6.知识表示:它以易于理解的形式呈现给用户,将学习规则转化为人们能够理解的知识。
  (三)数据挖掘的算法
  数据挖掘常用算法主要包括以下几种:
  1.决策树算法。决策树是一个树结构的算法模型,可以是二叉树,也可以是非二叉树,树中的根节点表示整个样本数据集,非叶子节点表示样本集中的属性,叶子节点表示样本集所属的类别,树中的每个分支表示样本集在该分支节点上的输出。
  2.K-Means算法。K-Means算法主要过程是根据数据集的特征将数据划分为不同的类别,它与处理混合正态分布的最大期望算法很相似。
  3.SVM算法。SVM算法把样本集中的每个样本都看成一个个独立的向量。找到一个最优的超平面H(d),将不同类别的向量分别开来,使类别之间的间隔最大。
  4.Ada Boost集成算法。Ada Boost算法是Boosting集成学习算法中的一种,除此之外还有Gardient Boosting算法。其核心是针对一个学习模型,同时使用多个弱学习器进行训练学习。
  二、大学生上课考勤数据处理
  將大学生上课考勤历史数据从高校大学生上课考勤管理系统中提取,经转换后加载到数据仓库的考勤业务事实表中。下面将利用SSIS完成数据的提取、转换和加载功能。
  (一)数据提取
  登录到高校大学生上课考勤管理系统后,将查询条件设置为2018年4月1日至2018年4月31日的考勤数据,査询报表生成后,以Excel文件格式导出数据。高校大学生上课考勤管理系统导出的数据源包括学号、姓名、考勤时间、考勤地点四列。为确保学生隐私,本文将姓名删除,学号也不是实际值。由于从高校大学生上课考勤管理系统导出的数据是Excel格式文件,要对数据进行转换加载,首先要将考勤历史数据从Excel文件中提取,因此选择SSIS提供的数据流组件Excel源。
  (二)数据转换
  为了与学生基本信息维度、日期维度、考勤机地点维度关联,要对数据源中的学号、考勤时间、考勤地点列进行数据转换。
  1.类型转换。指定要转换的数据的列和数据转换的类型,指定转换输出列是使用SSIS提供的不区分区域设置的较快分析例程,使用标准的区分区域设置的分析例程。设置字符串数据的列长度和数值数据的精度及小数位数时,如字输出列长度小于其对应的输入列长度,则输出数据将被截断。
  2.查找转换。查找转换通过连接输入列中的数据和引用数据集中的列来执行查找。可以使用该查找在基于于通用列的值的相关表中访问其他信息。引用数据集可以是缓存文件、现有的表或视图、新表或SQL查询的结果。查找转换使用OLEDB连接管理器或缓存连接管理器来连接到引用数据集。
  3.排序转换。排序转换按升序或降序对输入数据进行排序,并将排序后的数据复制到转换输出。可以对一个输入应用多个排序;每个排序都由确定排序顺序的一个数字来标识。首先对具有最小数字的列进行排序,然后对具有第二小数字的排序列进行排序,依此类推。   4.聚合转换。聚合在信息科学中是指对有关的数据进行内容挑选、分析、归类,最后分析得到人们想要的结果,主要是指任何能够从数组产生标量值的数据转换过程。聚合转换不传递任何列,而是在数据流中为发布的数据创建新列。只有应用聚合函数的输入列或转换用于分组的输入列才复制到转换输出。
  5.派生转换。派生列转换通过对转换输入列应用表达式来创建新列值。可以使用此转换执行下列任务:将不同列的数据连接到一个派生列中。通过使用SUBSTRING之类的函数从字符串数据中提取字符,然后将结果存储到派生列中。对数值数据应用数学函数,然后将结果存储到派生列中。创建比较输入列和变量的表达式,提取日期时间值的某部分。
  (三)数据加载
  由于数据仓库基于SQL Server数据库构建,要将数据加载到数据库中的考勤数据事实表,我们选择OLEDB目标。目标是将数据流中的数据加载到不同类型的数据源或创建内存中数据集的数据流组件。目标具有一个输入和一个错误输出。
  三、大学生上课考勤数据挖掘
  完成了上述对考勤业务数据的提取、转换、加载,接下来的任务是对大学生上课考勤历史数据进行数据挖掘分析。
  (一)数据准备
  我们选择2018年4月份的大学生上课考勤历史数据进行分析,首先利用Excel数据挖掘客户端浏览数据源,结果显示2018年4月份的考勤总量呈先升高再下降的趋势,这是因为月初是清明节放假,月底开始放五一假期,学生在学校上课的频率逐渐减少。
  (二)多维分析
  使用Analysis Services对数据仓库中的考勤数据进行分析,从不同地点的考勤机考勤统计数据,可以知道哪些学生没有到指定教室上课。
  学生的日常考勤行为具有一定规律性,偶尔会有些变化,如果想了解这些异常考勤情况,需要使用数据挖掘工具对考勤数据进行异常检测。
  (三)异常检测
  SQL Server 2008數据挖掘外接程序提供的“突出显示异常值”工具能够对数据进行异常检测,异常检测算法基于聚类算法。“突出显示异常值”工具的工作步骤如下:(1)根据表中的当前数据创建数据挖掘结构;(2)使用Microsoft聚类分析算法创建新的数据挖掘模型;(3)按照模式创建预测查询,以确定工作表中的任何值是否是小可能的。由于该工具分析的是整体趋势,因此可能会发现行中的大多数值是正常的,并将只突出显示该行的一个单元格。
  利用“突出显示异常值”工具对大学生上课考勤数据中的考勤时间和考勤地点列进行异常检测。“异常阈值”指示特定单元格包含异常值的概率,将该值增大可降低筛除错误概率,减小该值将显示更多突出显示的单元格。异常阈值的初始值式中为75,这表示算法计算的突出显示数据的有错几率为75%,大学生上课考勤数据的“异常阈值”设置为80。
  “突出显示异常值”工具完成分析时创建的新工作表,是考勤时间和考勤地点列中找到的离群值的汇总报表。该工具还会在考勤数据原始表中突出显示异常值。深色突出显示表示需要注意该行,浅色突出显示表示特定单元格中的值很可疑。
  结束语:
  对于大学生上课考勤管理数据,采用数据挖掘进行数据处理和分析,可以判断学生考勤行为异常现象。为进行全局数据分析,对于数据源中关系数据库的数据可按类型转换、查找转换、排序转换、聚合转换、派生转换的步骤进行数据处理,同时还要处理好数据加载及样本选取问题。实践证明,基于数据挖掘的大学生上课考勤管理是合理且可行的,并且取得较好的效果,后续还需在数据分析方法和算法优化方面继续深入研究。
  作者简介:
  杨旸;女;1986年12月18日;宁夏;汉族;在职研究生;对外经济贸易大学统计学院在职人员高级课程研修班学员;大数据分析与应用
其他文献
摘 要:中华优秀传统文化是我国自古以来就存在的文化,甚至在《礼记》中就有所记载。随着时代的变迁和发展,中华优秀传统文化才渐渐地变成了各种礼仪、文化、素养教学等象征,而高中语文的教学内容多以古诗词文为主,因此在语文教学中,会经常性涉及到一些中华优秀传统文化,文章会从中华优秀传统文化在高中语文课堂中的意义进行着手分析,提出相对的应用教学对策。  关键词:中华优秀传统文化;高中语文;实践意义;应用对策 
期刊
摘 要:在互联网信息技术飞速发展的今天,课堂教学模式随之有了巨大的改变,“微课教学”也随之而生,并且逐渐成教师们眼中“新鲜”的有效教学方式。微课教学实际上是利用“小而精”的微视频,来丰富英语课堂教学内容,从而达到高效教学的目的。关于“微课教学”对初中高效课堂的构建,本文从选题、导入、创设情境、明确重点、拓展延伸五个教学设计方面进行简单论述,旨在探究如何高效利用微课资源来构建初中英语高效课堂。  关
期刊
自由作为一个政治哲学概念,其意义表明,在此条件下人类可以进行自我支配,能够凭借自己的自由意志而行动,并为自身的行为而负责。表现了个体对于个人意志把握和冲破束缚的强烈愿望。探寻自由的渊源可以最早追溯到战国时期庄子的《逍遥游》等名篇中隐含着的自由思想。  一、自由  “自由”的观念,在西方哲学史中源远流长,上溯至古代希腊,经中古入近世,成为哲学中的核心范畴之一。  在古代希臘,“自由”主要用于人的社会
期刊
早晨,我家的鱼塘是最美的。  我家门向东,前面有一个大鱼塘,当太阳从东方缓缓升起的时候,水面上就反射出五彩的光环,那可真是水天一色。一阵微风吹来,鱼塘边的柑橘树便扭动着她那婀娜的身姿,平静的水面也按耐不住她内心的涌动,泛起了层层涟漪,柑橘树的倒影随着水波的荡漾时有时无。此时,鱼儿也活跃起来了,水面时而激起一圈圈浪花,时而冒出一个个水泡。  当我的身影出现在水面上時,一群群鱼儿很快聚集过来,有的跳动
期刊
摘 要:小学科学教学是小学教学过程中的重要内容,通过对学生进行科学教学工作,可以有效的启蒙学生的科学意识,锻炼学生的逻辑思维能力。不过由于教师长期受到应试教学思维的桎梏,小学科学教学一直无法受到应有的重视,导致了小学科学教学所取得的成效并不瞩目,无法发挥出自身的优势。因此教师在对学生开展教学的过程中,需要更正自己对于小学科学的认识,从学生的兴趣方面入手,激发出学生对于小学科学的有效参与。同时教师要
期刊
摘 要:随着大数据技术的发展,校园教育和日常走向智能化建设中,大数据技术可以运用到智慧校园的各个方面,通过大数据技术能够为师生提供优质的校园服务、高效的资源调度和决策服务支持,最终提高教学质量。  关键词:大数据;技术;智慧校园  教育部“十三五”规划中提出“智慧校园”的建设,旨在能够将校园的海量资源进行整体利用,智慧校园的提出和建设既带来了机遇也带来挑战。伴随着信息技术的不断发展,相关技术也愈加
期刊
摘 要:在小学教学过程中,对学生开展有关于识字方面的教学工作成为了教师在对学生开展教学工作中的重中之重,所以教师在对学生开展教学过程中,需要帮助学生实现在教学过程中的能力提升与进步,实现学生综合能力的全面发展。当教师在对学生开展教学的过程中,由于学生在小学低年级阶段的自主学习能力上有所欠缺,所以教师在对学生开展教学过程中,需要及时帮助学生解决在学习与生活中所遇到的问题,有效地调动学生在当前阶段的学
期刊
摘 要:防汛决策系统建设所涉及的数据来源广泛、数据量大、类型丰富,要求展现的成果具有较高的响应速度和可视化展示界面,传统的信息化建设手段很难达到。本文以大数据服务为背景,在深入研究大数据和综合集成平台的基础上,将大数据相关技术应用到防汛决策系统中,建立了大数据服务下的防汛决策系统。该系统能够根据输入的不同测站、时间段快速生成水位预测结果,并可对结果进行人工审核调整,具有较强的通用性,可对基本信息以
期刊
摘 要:深度挖掘教育数据中的隐藏信息,可以暴露教育过程中存在的主要问题,为教育管理部门教育决策提供支持。本文从基础教育的角度着手,基于大数据背景下,深入详细地探讨基础教育评估与教学资源分配,以期对基础教育的发展提供一定的参考借鉴。  关键词:大数据;基础教育;教育评估;资源分配  引言:  现今时代,大数据已经被应用到了各个领域、各个行业,如我国的电子科技大学还成功地通过收集学生在学校中生活学习的
期刊
摘 要:少年强,则国强。教师作为学生的教导者与领航人,对学生的未来发展导向至关重要。加强师德师风建设也成为了当今新形势下的重要教育建设之一,这些理念都要求教师必须具备良好的师德师风。所谓的为人师表,就是要让教师立师德、树师风、铸师魂,在学生中树立良好的模范作用、坚持职业道德规范,以良好的师德教书育人,帮助学生成长。基于此,本文对“自觉爱国守法,潜心教书育人”为主题的进行深入总结,为今后的工作优化奠
期刊