论文部分内容阅读
摘 要:校园大数据分析是目前大数据研究的重要领域,针对历年积累的大量学生考勤数据,传统的数据库技术几乎无法完成全量的数据分析,串行的计算方法很难在短时间内计算出分析结果。大数据技术是解决此类问题的一种较好的方法,本文基于数据挖掘技术的条件下,通过对大学生上课考勤数据进行提取、转换与加载,挖掘分析大学生上课考勤数据是否存在考勤行为异常的现象,对大学生上课考勤管理的完善与发展具有一定的参考借鉴意义。
关键词:数据挖掘;考勤管理;数据处理
引言:
20世纪80年代以来,随着计算机信息技术产业的快速发展,数据库技术得到了广泛的应用,存储在各个领域的信息和数据类型也在迅速增长。在过去,仅仅依靠数据库管理系统和统计方法来搜索和分析信息的机制和模型远远不能满足现实社会的需要。因此,如何从海量数据中获取有价值的信息或知识,将是当前一项极其艰巨的任务。为了满足这一需求,消除传统数据库操作的弊端,数据挖掘技术得到了飞速的发展和进步,改变了数据内部使用的新思路。采用数字化手段进行高校大学生上课考勤管理日益普遍,大量的考勤数据中隐含了可用于指导教学的信息,如何将这些信息挖掘出来是值得关注的问题。本文以数据挖掘技术为基础,对大学生上课考勤数据进行处理与分析,对大学生上课考勤管理具有重要的意义。
一、数据挖掘概述
(一)数据挖掘的定义
数据挖掘技术是基于高科技的先进统计技术,学术界对数据挖掘技术没有明确的定义。但它可以从广义上定义,换句话说,数据挖掘的过程就是提取大量不完整的模糊数据。简而言之,数学方法被用于从数据中提取知识。数据挖掘是另一种知识研究的方法和手段,数据挖掘是一门跨学科的技术,它不仅应用了高等数学中的概率论和统计学知识,而且还应用于数据库和计算机中的数据存储。数据挖掘过程还包括机器学习内容。大量数据的分析和研究模式化,需要各个领域的知识相互对照。从数据中提取的知识有助于有效地解决一些问题。数据挖掘技术包括数据预处理、与主题相关的数据匹配、数据集成和数据转换,以及使用智能方法收集数据以发现其中包含的规则。
(二)数据挖掘的流程
一般的数据挖掘步骤是确定数据挖掘的目标、收集数据、提取目标数据、数据预处理、构建挖掘模型、模型评估、知识表示等过程,具体介绍如下:
1.建立立项目目标:挖掘项目必须包括完成项目的价值所在。
2.数据收集:以既定的系统方式收集和测量有针对性的变量的信息,来源可以是网络提取、业务调查。
3.数据预处理:将收集的数据“格式化”,以便于之后的模型训练与统计。
4.数据挖掘:通过一些算法模型或者分析方法,将收集到的原始数据转换成有用信息的过程。
5.模型评价:数据挖掘结果的综合评价,数据挖掘模型、挖掘结果的判定,算法执行时间及稳定性等。
6.知识表示:它以易于理解的形式呈现给用户,将学习规则转化为人们能够理解的知识。
(三)数据挖掘的算法
数据挖掘常用算法主要包括以下几种:
1.决策树算法。决策树是一个树结构的算法模型,可以是二叉树,也可以是非二叉树,树中的根节点表示整个样本数据集,非叶子节点表示样本集中的属性,叶子节点表示样本集所属的类别,树中的每个分支表示样本集在该分支节点上的输出。
2.K-Means算法。K-Means算法主要过程是根据数据集的特征将数据划分为不同的类别,它与处理混合正态分布的最大期望算法很相似。
3.SVM算法。SVM算法把样本集中的每个样本都看成一个个独立的向量。找到一个最优的超平面H(d),将不同类别的向量分别开来,使类别之间的间隔最大。
4.Ada Boost集成算法。Ada Boost算法是Boosting集成学习算法中的一种,除此之外还有Gardient Boosting算法。其核心是针对一个学习模型,同时使用多个弱学习器进行训练学习。
二、大学生上课考勤数据处理
將大学生上课考勤历史数据从高校大学生上课考勤管理系统中提取,经转换后加载到数据仓库的考勤业务事实表中。下面将利用SSIS完成数据的提取、转换和加载功能。
(一)数据提取
登录到高校大学生上课考勤管理系统后,将查询条件设置为2018年4月1日至2018年4月31日的考勤数据,査询报表生成后,以Excel文件格式导出数据。高校大学生上课考勤管理系统导出的数据源包括学号、姓名、考勤时间、考勤地点四列。为确保学生隐私,本文将姓名删除,学号也不是实际值。由于从高校大学生上课考勤管理系统导出的数据是Excel格式文件,要对数据进行转换加载,首先要将考勤历史数据从Excel文件中提取,因此选择SSIS提供的数据流组件Excel源。
(二)数据转换
为了与学生基本信息维度、日期维度、考勤机地点维度关联,要对数据源中的学号、考勤时间、考勤地点列进行数据转换。
1.类型转换。指定要转换的数据的列和数据转换的类型,指定转换输出列是使用SSIS提供的不区分区域设置的较快分析例程,使用标准的区分区域设置的分析例程。设置字符串数据的列长度和数值数据的精度及小数位数时,如字输出列长度小于其对应的输入列长度,则输出数据将被截断。
2.查找转换。查找转换通过连接输入列中的数据和引用数据集中的列来执行查找。可以使用该查找在基于于通用列的值的相关表中访问其他信息。引用数据集可以是缓存文件、现有的表或视图、新表或SQL查询的结果。查找转换使用OLEDB连接管理器或缓存连接管理器来连接到引用数据集。
3.排序转换。排序转换按升序或降序对输入数据进行排序,并将排序后的数据复制到转换输出。可以对一个输入应用多个排序;每个排序都由确定排序顺序的一个数字来标识。首先对具有最小数字的列进行排序,然后对具有第二小数字的排序列进行排序,依此类推。 4.聚合转换。聚合在信息科学中是指对有关的数据进行内容挑选、分析、归类,最后分析得到人们想要的结果,主要是指任何能够从数组产生标量值的数据转换过程。聚合转换不传递任何列,而是在数据流中为发布的数据创建新列。只有应用聚合函数的输入列或转换用于分组的输入列才复制到转换输出。
5.派生转换。派生列转换通过对转换输入列应用表达式来创建新列值。可以使用此转换执行下列任务:将不同列的数据连接到一个派生列中。通过使用SUBSTRING之类的函数从字符串数据中提取字符,然后将结果存储到派生列中。对数值数据应用数学函数,然后将结果存储到派生列中。创建比较输入列和变量的表达式,提取日期时间值的某部分。
(三)数据加载
由于数据仓库基于SQL Server数据库构建,要将数据加载到数据库中的考勤数据事实表,我们选择OLEDB目标。目标是将数据流中的数据加载到不同类型的数据源或创建内存中数据集的数据流组件。目标具有一个输入和一个错误输出。
三、大学生上课考勤数据挖掘
完成了上述对考勤业务数据的提取、转换、加载,接下来的任务是对大学生上课考勤历史数据进行数据挖掘分析。
(一)数据准备
我们选择2018年4月份的大学生上课考勤历史数据进行分析,首先利用Excel数据挖掘客户端浏览数据源,结果显示2018年4月份的考勤总量呈先升高再下降的趋势,这是因为月初是清明节放假,月底开始放五一假期,学生在学校上课的频率逐渐减少。
(二)多维分析
使用Analysis Services对数据仓库中的考勤数据进行分析,从不同地点的考勤机考勤统计数据,可以知道哪些学生没有到指定教室上课。
学生的日常考勤行为具有一定规律性,偶尔会有些变化,如果想了解这些异常考勤情况,需要使用数据挖掘工具对考勤数据进行异常检测。
(三)异常检测
SQL Server 2008數据挖掘外接程序提供的“突出显示异常值”工具能够对数据进行异常检测,异常检测算法基于聚类算法。“突出显示异常值”工具的工作步骤如下:(1)根据表中的当前数据创建数据挖掘结构;(2)使用Microsoft聚类分析算法创建新的数据挖掘模型;(3)按照模式创建预测查询,以确定工作表中的任何值是否是小可能的。由于该工具分析的是整体趋势,因此可能会发现行中的大多数值是正常的,并将只突出显示该行的一个单元格。
利用“突出显示异常值”工具对大学生上课考勤数据中的考勤时间和考勤地点列进行异常检测。“异常阈值”指示特定单元格包含异常值的概率,将该值增大可降低筛除错误概率,减小该值将显示更多突出显示的单元格。异常阈值的初始值式中为75,这表示算法计算的突出显示数据的有错几率为75%,大学生上课考勤数据的“异常阈值”设置为80。
“突出显示异常值”工具完成分析时创建的新工作表,是考勤时间和考勤地点列中找到的离群值的汇总报表。该工具还会在考勤数据原始表中突出显示异常值。深色突出显示表示需要注意该行,浅色突出显示表示特定单元格中的值很可疑。
结束语:
对于大学生上课考勤管理数据,采用数据挖掘进行数据处理和分析,可以判断学生考勤行为异常现象。为进行全局数据分析,对于数据源中关系数据库的数据可按类型转换、查找转换、排序转换、聚合转换、派生转换的步骤进行数据处理,同时还要处理好数据加载及样本选取问题。实践证明,基于数据挖掘的大学生上课考勤管理是合理且可行的,并且取得较好的效果,后续还需在数据分析方法和算法优化方面继续深入研究。
作者简介:
杨旸;女;1986年12月18日;宁夏;汉族;在职研究生;对外经济贸易大学统计学院在职人员高级课程研修班学员;大数据分析与应用
关键词:数据挖掘;考勤管理;数据处理
引言:
20世纪80年代以来,随着计算机信息技术产业的快速发展,数据库技术得到了广泛的应用,存储在各个领域的信息和数据类型也在迅速增长。在过去,仅仅依靠数据库管理系统和统计方法来搜索和分析信息的机制和模型远远不能满足现实社会的需要。因此,如何从海量数据中获取有价值的信息或知识,将是当前一项极其艰巨的任务。为了满足这一需求,消除传统数据库操作的弊端,数据挖掘技术得到了飞速的发展和进步,改变了数据内部使用的新思路。采用数字化手段进行高校大学生上课考勤管理日益普遍,大量的考勤数据中隐含了可用于指导教学的信息,如何将这些信息挖掘出来是值得关注的问题。本文以数据挖掘技术为基础,对大学生上课考勤数据进行处理与分析,对大学生上课考勤管理具有重要的意义。
一、数据挖掘概述
(一)数据挖掘的定义
数据挖掘技术是基于高科技的先进统计技术,学术界对数据挖掘技术没有明确的定义。但它可以从广义上定义,换句话说,数据挖掘的过程就是提取大量不完整的模糊数据。简而言之,数学方法被用于从数据中提取知识。数据挖掘是另一种知识研究的方法和手段,数据挖掘是一门跨学科的技术,它不仅应用了高等数学中的概率论和统计学知识,而且还应用于数据库和计算机中的数据存储。数据挖掘过程还包括机器学习内容。大量数据的分析和研究模式化,需要各个领域的知识相互对照。从数据中提取的知识有助于有效地解决一些问题。数据挖掘技术包括数据预处理、与主题相关的数据匹配、数据集成和数据转换,以及使用智能方法收集数据以发现其中包含的规则。
(二)数据挖掘的流程
一般的数据挖掘步骤是确定数据挖掘的目标、收集数据、提取目标数据、数据预处理、构建挖掘模型、模型评估、知识表示等过程,具体介绍如下:
1.建立立项目目标:挖掘项目必须包括完成项目的价值所在。
2.数据收集:以既定的系统方式收集和测量有针对性的变量的信息,来源可以是网络提取、业务调查。
3.数据预处理:将收集的数据“格式化”,以便于之后的模型训练与统计。
4.数据挖掘:通过一些算法模型或者分析方法,将收集到的原始数据转换成有用信息的过程。
5.模型评价:数据挖掘结果的综合评价,数据挖掘模型、挖掘结果的判定,算法执行时间及稳定性等。
6.知识表示:它以易于理解的形式呈现给用户,将学习规则转化为人们能够理解的知识。
(三)数据挖掘的算法
数据挖掘常用算法主要包括以下几种:
1.决策树算法。决策树是一个树结构的算法模型,可以是二叉树,也可以是非二叉树,树中的根节点表示整个样本数据集,非叶子节点表示样本集中的属性,叶子节点表示样本集所属的类别,树中的每个分支表示样本集在该分支节点上的输出。
2.K-Means算法。K-Means算法主要过程是根据数据集的特征将数据划分为不同的类别,它与处理混合正态分布的最大期望算法很相似。
3.SVM算法。SVM算法把样本集中的每个样本都看成一个个独立的向量。找到一个最优的超平面H(d),将不同类别的向量分别开来,使类别之间的间隔最大。
4.Ada Boost集成算法。Ada Boost算法是Boosting集成学习算法中的一种,除此之外还有Gardient Boosting算法。其核心是针对一个学习模型,同时使用多个弱学习器进行训练学习。
二、大学生上课考勤数据处理
將大学生上课考勤历史数据从高校大学生上课考勤管理系统中提取,经转换后加载到数据仓库的考勤业务事实表中。下面将利用SSIS完成数据的提取、转换和加载功能。
(一)数据提取
登录到高校大学生上课考勤管理系统后,将查询条件设置为2018年4月1日至2018年4月31日的考勤数据,査询报表生成后,以Excel文件格式导出数据。高校大学生上课考勤管理系统导出的数据源包括学号、姓名、考勤时间、考勤地点四列。为确保学生隐私,本文将姓名删除,学号也不是实际值。由于从高校大学生上课考勤管理系统导出的数据是Excel格式文件,要对数据进行转换加载,首先要将考勤历史数据从Excel文件中提取,因此选择SSIS提供的数据流组件Excel源。
(二)数据转换
为了与学生基本信息维度、日期维度、考勤机地点维度关联,要对数据源中的学号、考勤时间、考勤地点列进行数据转换。
1.类型转换。指定要转换的数据的列和数据转换的类型,指定转换输出列是使用SSIS提供的不区分区域设置的较快分析例程,使用标准的区分区域设置的分析例程。设置字符串数据的列长度和数值数据的精度及小数位数时,如字输出列长度小于其对应的输入列长度,则输出数据将被截断。
2.查找转换。查找转换通过连接输入列中的数据和引用数据集中的列来执行查找。可以使用该查找在基于于通用列的值的相关表中访问其他信息。引用数据集可以是缓存文件、现有的表或视图、新表或SQL查询的结果。查找转换使用OLEDB连接管理器或缓存连接管理器来连接到引用数据集。
3.排序转换。排序转换按升序或降序对输入数据进行排序,并将排序后的数据复制到转换输出。可以对一个输入应用多个排序;每个排序都由确定排序顺序的一个数字来标识。首先对具有最小数字的列进行排序,然后对具有第二小数字的排序列进行排序,依此类推。 4.聚合转换。聚合在信息科学中是指对有关的数据进行内容挑选、分析、归类,最后分析得到人们想要的结果,主要是指任何能够从数组产生标量值的数据转换过程。聚合转换不传递任何列,而是在数据流中为发布的数据创建新列。只有应用聚合函数的输入列或转换用于分组的输入列才复制到转换输出。
5.派生转换。派生列转换通过对转换输入列应用表达式来创建新列值。可以使用此转换执行下列任务:将不同列的数据连接到一个派生列中。通过使用SUBSTRING之类的函数从字符串数据中提取字符,然后将结果存储到派生列中。对数值数据应用数学函数,然后将结果存储到派生列中。创建比较输入列和变量的表达式,提取日期时间值的某部分。
(三)数据加载
由于数据仓库基于SQL Server数据库构建,要将数据加载到数据库中的考勤数据事实表,我们选择OLEDB目标。目标是将数据流中的数据加载到不同类型的数据源或创建内存中数据集的数据流组件。目标具有一个输入和一个错误输出。
三、大学生上课考勤数据挖掘
完成了上述对考勤业务数据的提取、转换、加载,接下来的任务是对大学生上课考勤历史数据进行数据挖掘分析。
(一)数据准备
我们选择2018年4月份的大学生上课考勤历史数据进行分析,首先利用Excel数据挖掘客户端浏览数据源,结果显示2018年4月份的考勤总量呈先升高再下降的趋势,这是因为月初是清明节放假,月底开始放五一假期,学生在学校上课的频率逐渐减少。
(二)多维分析
使用Analysis Services对数据仓库中的考勤数据进行分析,从不同地点的考勤机考勤统计数据,可以知道哪些学生没有到指定教室上课。
学生的日常考勤行为具有一定规律性,偶尔会有些变化,如果想了解这些异常考勤情况,需要使用数据挖掘工具对考勤数据进行异常检测。
(三)异常检测
SQL Server 2008數据挖掘外接程序提供的“突出显示异常值”工具能够对数据进行异常检测,异常检测算法基于聚类算法。“突出显示异常值”工具的工作步骤如下:(1)根据表中的当前数据创建数据挖掘结构;(2)使用Microsoft聚类分析算法创建新的数据挖掘模型;(3)按照模式创建预测查询,以确定工作表中的任何值是否是小可能的。由于该工具分析的是整体趋势,因此可能会发现行中的大多数值是正常的,并将只突出显示该行的一个单元格。
利用“突出显示异常值”工具对大学生上课考勤数据中的考勤时间和考勤地点列进行异常检测。“异常阈值”指示特定单元格包含异常值的概率,将该值增大可降低筛除错误概率,减小该值将显示更多突出显示的单元格。异常阈值的初始值式中为75,这表示算法计算的突出显示数据的有错几率为75%,大学生上课考勤数据的“异常阈值”设置为80。
“突出显示异常值”工具完成分析时创建的新工作表,是考勤时间和考勤地点列中找到的离群值的汇总报表。该工具还会在考勤数据原始表中突出显示异常值。深色突出显示表示需要注意该行,浅色突出显示表示特定单元格中的值很可疑。
结束语:
对于大学生上课考勤管理数据,采用数据挖掘进行数据处理和分析,可以判断学生考勤行为异常现象。为进行全局数据分析,对于数据源中关系数据库的数据可按类型转换、查找转换、排序转换、聚合转换、派生转换的步骤进行数据处理,同时还要处理好数据加载及样本选取问题。实践证明,基于数据挖掘的大学生上课考勤管理是合理且可行的,并且取得较好的效果,后续还需在数据分析方法和算法优化方面继续深入研究。
作者简介:
杨旸;女;1986年12月18日;宁夏;汉族;在职研究生;对外经济贸易大学统计学院在职人员高级课程研修班学员;大数据分析与应用