论文部分内容阅读
摘 要:网络是把双刃剑,对学生来说有利也有弊。为了制定合理的管理措施,督促大学生及时规范自己的网络行为。该研究重点研究了数据挖掘算法的选择,最后选择决策树、关联规则、预测分析对学生上网行为中的重要数据进行挖掘,实现大数据网络行为属性与学生学习成绩之间相关属性分析。结果显示,在“流量数据”中,“上网时间长度长”无疑是导致在校学生正常学习水平差的罪魁祸首。研究结果:相当差的算法是逻辑关联回归,相对比逻辑回归好一点的是决策树挖掘算法,最优秀的数逻辑关联性和规则数据挖掘算法。
关键词:大数据;上网行为分析与决策;决策树;关联规则;预测分析
1 概述
大数据时代的到来,导致了大学生的网络行为分析数据中的比重也越来越大现。网络管理系统多年运行,积累了大量的运行数据、业务数据和日志数据。对这些网络数据进行采集,利用这些大数据,研究其规律。首先,问题是“学生长时间上网会影响学习质量”这个结论正确吗?两者之间是否存在其他的关联?所以我们最主要的是要在这些大数据中提取我们需要的利于我们研究的数据,我们来对数据进行挖掘。数据挖掘中所包含的数据内容、算法等都是由多种不同学科交叉应用构成的。大数据分析与信息挖掘技术是近年来的技术发展研究热点,大数据挖掘技术应用涉及到在校大学生日常上网时的行为数据分析,能够快速并准确的发掘出各种潜藏在学校数据集中的网络规律和异常,并以此为基础不断完善学校网络管理环境。能够真正做到让学校网络上的学习信息资源为广大学生所用。这正是本研究的意义所在。
2 数据挖掘的研究流程
流量数据是较为常见的数据元素,每一个网站都在关注它。我们收集到的学生上网数据存在有缺失值、重复值等,所以要进行数据预处理,数据预处理没有标准的流程,通常针对不同的任务和事件。还要对数据挖掘进行归类,才能选择到合适的方法对数据进行建模。在目标进一步明确的基础上,我们就可以按照问题的具体要求来重新审视已经采集的数据,所以要求有针对性,要组合或者新生成一些新的变量,以体现对状态的有效的描述。
3 构建数据模型
3.1 數据采集
本研究以六盘水师范学院的高校学生网上行为数据与其课程的期末考试成绩作为研究的数据对象。采集学院在籍学生数据人数9,025条记录,从教务管理系统中在抽取学生的期末考试成绩数据记录519,898条,从教务管理系统中提取学生2,402,311条上网数据记录。
3.2 教育数据的预处理
(1)采集的数据范围较广,数据预测的处理主要目的是为了去掉脏的,乱的,多余的,重复的这些数据,降低这些样本数据的冗余度。基础数据是学生的上网数据,需要对其除脏数据,将经过预处理后的每个学生当时上网行为关联数据和每个学生的平均绩点行为数据一并通过“学生id”字段进行数据样本关联,得到当时学生学习信息、上网及学习课程平均每个学分学生绩点行为数据三种关联数据的并集,也可以说是一个样本关联数据集,以“学生id号”作为主键,唯一标识每条数据元组(此时学生上网信息数据表的一行记录)。
(2)我校学生日常上网互动行为数据收集。可以利用基础的SQL语句,应用数据库里的数据进行分组查询,按年级话分,以学号为主键,进行汇总即可得到需要用来进行数据挖掘的学生学习信息数据的主要字段,有a、出入流量b、浏览时长c、总流量d、上网内容四个指标字段。这样的目的是为了得到冗余较小的学生上网数据。
(3)高校都有自己的一套评定学生的学习质量的考察指标,为了我校能够准确衡量学生的综合学习质量,我校学生的采用的评判标准是“学分绩点”,折算成绩点有两个重点:百分制和等级成绩,绩点是与期末考试成绩挂钩的,它们之间呈现的关系。如表1所示。
使用决策树分析完成平均绩点计算以后能够大大减少学生成绩记录,每个年级学生的平均成绩绩点数据记录至多1条。成绩点条数在采样数据之时是2140,228,经过多次计算平均的成绩点之后数据记录减少为8,025条,和学生之前采集的数据记录总数一样,这样就大大的缩减了成绩数据最大容量。
(4)等级归类。从采集的成绩数据出发,100分为起点,划分分值的区域:分数每下降10分就降低一个等级,最后将其归类为优、良、中和差四个级别。
3.3 数据转换
对预读处理后的海量数据,需要根据要求对其进行各种组合式的变换,这里的要求是挖掘数据的变量。对预测分析数据来说,转化结果是一个数值变量,进而直接参与预测数据挖掘以及预测分析具体的模型建立。
3.4 数据挖掘
依据SQL数据库的预处理分析结果,样本训练数据被归类为“优秀”和“普通”两个基础类型。采取合理有效的实例字段,比如“上网时长”等。通过对六盘水师范学院教务管理系统中采集数据挖掘分析,研究各个指标实例字段以及对用户样本上网成绩进行分为几类不同程度的影响。
使用决策树模型分析如上图所示,最佳收支曲线分割的上网节点有:432.765、332.325、291.215。我们这里采取的是两个大等级,主要分为“普通”和“优秀”两类评分类别。我们用“白”及“黑”两种颜色来分别代替。从以上图中所有节点的图形比例分析可以明显看出,上网时长与学习成绩是一种相关关系。上网学习时长比例越短,优秀成绩部分学生的整体比例越长,成绩普通部分学生的整体比例越小,反之亦然。在这里我们的推断是①“上网时间长度”是直接影响学生的学习生活质量的最罪魁祸首。②限制上网期间时长与学生的学习生活质量之间呈现负相关性的关系,如果加强限制上网长的时长,对提高学生的学习成绩的非常有效的。③限制上网长有三个关键节点,分别是432.765、332.325、291.215,采取的措施就比较多了,建议是:给校园网设置时间限制,只要一到时间点,就限制网速,还有根据上网时间收取费用等等。 3.5 關联规则
通过对学校教育管理数据集资源进行互相关联,然后再综合分析就可以初步发现班级教师的采用哪种课堂授课互动方式及哪种课堂上的互动教育形式对班级学生的综合学习能力具有良好的互动促进教育效果,淘汰不好的课堂授课互动方式,进而使班级学生在利用课堂学习时间就能够快速掌握基础知识,最终可以实现整个学校管理层次和班级学生学习能力的不断提高。
分析上面表2,影响大生学习质量的影响因素主要有“上网时间长度”“出流量”“总流量”“入流量”。学生的“网上浏览内容”也是一大影响因素,所以要对网络信息进行规范。如果是规则1中学生连续上网时间不低于255.84小时,该学生有84.1%的概率被归为“普通成绩”类别,但在规则5中学生总流量时长不高于1.01gb,“优秀成绩”的占比为63.21%。规则6,六盘水高校学生持续上网网络总流量时长不低于66.11gb,在“普通成绩”堆里也要占领了53.1%。再看第7条,这里的总流量就会大于48.34gb,其学习成绩最终在“普通成绩”类别里就到了61.9%的概率。所以“上网时间长度”也是高校学生的一大杀手。所以要特别注意的四个关键点和分割线节点是455.84、390.25、250.04、89.95。关联树乃至关联规则的数据挖掘的分析结果与决策树进行分析后的结果有细小差别。
3.6 预测分析逻辑回归
利用该方法,可得到学生综合成绩的对应关系。具体做法:首先结合目标数据的分析结果,其次再加上模型的对应等级,最后利用数据模型图作最终的分析比较,得出结论。
从表3当中的数据结构出发,结论是:“学生上网时间会影响学习”,该分析结果还提供了389.132、240.240、110.106数据分割判断点,这里的对比分析结果表明与前两者方法的研究结果差别比较小。此外,值得注意的是与前者不一致的地方就是“出流量”,它就不能作为该研究的一个侧重点。
4 结果分析与决策
结合数据挖掘中应用到的,选择围绕三大算法通过挖掘结果及其相关分析,得到了预期的相一致研究目标。综合三大不同算法的数据挖掘分析结果,六盘水高等师范学院为大学生统计上网使用时长的五个关键数据分割线节点分别为455.84、390.25、250.04、89.95。其中“上网时间长度”显示,学生的学习成绩是和其息息相关的,我们要侧重两个时间点,上网时长250.04小时与390.25小时,应据此研究的时间断点,制定合理的校园网络管理控制措施,还可以在六盘水高校学生学习方面,利用我们的研究结果决策分析,制定更加完美的教学方法。当然,我们还希望进一步深入研究我们的数据挖掘方法,这样就可以针对高校学生上网制定富有操作性和生命力的网络道德行为规范,筑坚强的护盾与心灵。
参考文献:
[1]胡祖辉,施佺.高校学生上网行为分析与数据挖掘研究.中国远程教育,2017-02-28.
[2]邓运,陈晓军.基于大数据分析高校学生行为季刊.福建电脑,2018-09-25.
[3]龙虎,李娜大数据技术下的机器学习平台构建研究.电脑知识与技术,2019-04-05.
关键词:大数据;上网行为分析与决策;决策树;关联规则;预测分析
1 概述
大数据时代的到来,导致了大学生的网络行为分析数据中的比重也越来越大现。网络管理系统多年运行,积累了大量的运行数据、业务数据和日志数据。对这些网络数据进行采集,利用这些大数据,研究其规律。首先,问题是“学生长时间上网会影响学习质量”这个结论正确吗?两者之间是否存在其他的关联?所以我们最主要的是要在这些大数据中提取我们需要的利于我们研究的数据,我们来对数据进行挖掘。数据挖掘中所包含的数据内容、算法等都是由多种不同学科交叉应用构成的。大数据分析与信息挖掘技术是近年来的技术发展研究热点,大数据挖掘技术应用涉及到在校大学生日常上网时的行为数据分析,能够快速并准确的发掘出各种潜藏在学校数据集中的网络规律和异常,并以此为基础不断完善学校网络管理环境。能够真正做到让学校网络上的学习信息资源为广大学生所用。这正是本研究的意义所在。
2 数据挖掘的研究流程
流量数据是较为常见的数据元素,每一个网站都在关注它。我们收集到的学生上网数据存在有缺失值、重复值等,所以要进行数据预处理,数据预处理没有标准的流程,通常针对不同的任务和事件。还要对数据挖掘进行归类,才能选择到合适的方法对数据进行建模。在目标进一步明确的基础上,我们就可以按照问题的具体要求来重新审视已经采集的数据,所以要求有针对性,要组合或者新生成一些新的变量,以体现对状态的有效的描述。
3 构建数据模型
3.1 數据采集
本研究以六盘水师范学院的高校学生网上行为数据与其课程的期末考试成绩作为研究的数据对象。采集学院在籍学生数据人数9,025条记录,从教务管理系统中在抽取学生的期末考试成绩数据记录519,898条,从教务管理系统中提取学生2,402,311条上网数据记录。
3.2 教育数据的预处理
(1)采集的数据范围较广,数据预测的处理主要目的是为了去掉脏的,乱的,多余的,重复的这些数据,降低这些样本数据的冗余度。基础数据是学生的上网数据,需要对其除脏数据,将经过预处理后的每个学生当时上网行为关联数据和每个学生的平均绩点行为数据一并通过“学生id”字段进行数据样本关联,得到当时学生学习信息、上网及学习课程平均每个学分学生绩点行为数据三种关联数据的并集,也可以说是一个样本关联数据集,以“学生id号”作为主键,唯一标识每条数据元组(此时学生上网信息数据表的一行记录)。
(2)我校学生日常上网互动行为数据收集。可以利用基础的SQL语句,应用数据库里的数据进行分组查询,按年级话分,以学号为主键,进行汇总即可得到需要用来进行数据挖掘的学生学习信息数据的主要字段,有a、出入流量b、浏览时长c、总流量d、上网内容四个指标字段。这样的目的是为了得到冗余较小的学生上网数据。
(3)高校都有自己的一套评定学生的学习质量的考察指标,为了我校能够准确衡量学生的综合学习质量,我校学生的采用的评判标准是“学分绩点”,折算成绩点有两个重点:百分制和等级成绩,绩点是与期末考试成绩挂钩的,它们之间呈现的关系。如表1所示。
使用决策树分析完成平均绩点计算以后能够大大减少学生成绩记录,每个年级学生的平均成绩绩点数据记录至多1条。成绩点条数在采样数据之时是2140,228,经过多次计算平均的成绩点之后数据记录减少为8,025条,和学生之前采集的数据记录总数一样,这样就大大的缩减了成绩数据最大容量。
(4)等级归类。从采集的成绩数据出发,100分为起点,划分分值的区域:分数每下降10分就降低一个等级,最后将其归类为优、良、中和差四个级别。
3.3 数据转换
对预读处理后的海量数据,需要根据要求对其进行各种组合式的变换,这里的要求是挖掘数据的变量。对预测分析数据来说,转化结果是一个数值变量,进而直接参与预测数据挖掘以及预测分析具体的模型建立。
3.4 数据挖掘
依据SQL数据库的预处理分析结果,样本训练数据被归类为“优秀”和“普通”两个基础类型。采取合理有效的实例字段,比如“上网时长”等。通过对六盘水师范学院教务管理系统中采集数据挖掘分析,研究各个指标实例字段以及对用户样本上网成绩进行分为几类不同程度的影响。
使用决策树模型分析如上图所示,最佳收支曲线分割的上网节点有:432.765、332.325、291.215。我们这里采取的是两个大等级,主要分为“普通”和“优秀”两类评分类别。我们用“白”及“黑”两种颜色来分别代替。从以上图中所有节点的图形比例分析可以明显看出,上网时长与学习成绩是一种相关关系。上网学习时长比例越短,优秀成绩部分学生的整体比例越长,成绩普通部分学生的整体比例越小,反之亦然。在这里我们的推断是①“上网时间长度”是直接影响学生的学习生活质量的最罪魁祸首。②限制上网期间时长与学生的学习生活质量之间呈现负相关性的关系,如果加强限制上网长的时长,对提高学生的学习成绩的非常有效的。③限制上网长有三个关键节点,分别是432.765、332.325、291.215,采取的措施就比较多了,建议是:给校园网设置时间限制,只要一到时间点,就限制网速,还有根据上网时间收取费用等等。 3.5 關联规则
通过对学校教育管理数据集资源进行互相关联,然后再综合分析就可以初步发现班级教师的采用哪种课堂授课互动方式及哪种课堂上的互动教育形式对班级学生的综合学习能力具有良好的互动促进教育效果,淘汰不好的课堂授课互动方式,进而使班级学生在利用课堂学习时间就能够快速掌握基础知识,最终可以实现整个学校管理层次和班级学生学习能力的不断提高。
分析上面表2,影响大生学习质量的影响因素主要有“上网时间长度”“出流量”“总流量”“入流量”。学生的“网上浏览内容”也是一大影响因素,所以要对网络信息进行规范。如果是规则1中学生连续上网时间不低于255.84小时,该学生有84.1%的概率被归为“普通成绩”类别,但在规则5中学生总流量时长不高于1.01gb,“优秀成绩”的占比为63.21%。规则6,六盘水高校学生持续上网网络总流量时长不低于66.11gb,在“普通成绩”堆里也要占领了53.1%。再看第7条,这里的总流量就会大于48.34gb,其学习成绩最终在“普通成绩”类别里就到了61.9%的概率。所以“上网时间长度”也是高校学生的一大杀手。所以要特别注意的四个关键点和分割线节点是455.84、390.25、250.04、89.95。关联树乃至关联规则的数据挖掘的分析结果与决策树进行分析后的结果有细小差别。
3.6 预测分析逻辑回归
利用该方法,可得到学生综合成绩的对应关系。具体做法:首先结合目标数据的分析结果,其次再加上模型的对应等级,最后利用数据模型图作最终的分析比较,得出结论。
从表3当中的数据结构出发,结论是:“学生上网时间会影响学习”,该分析结果还提供了389.132、240.240、110.106数据分割判断点,这里的对比分析结果表明与前两者方法的研究结果差别比较小。此外,值得注意的是与前者不一致的地方就是“出流量”,它就不能作为该研究的一个侧重点。
4 结果分析与决策
结合数据挖掘中应用到的,选择围绕三大算法通过挖掘结果及其相关分析,得到了预期的相一致研究目标。综合三大不同算法的数据挖掘分析结果,六盘水高等师范学院为大学生统计上网使用时长的五个关键数据分割线节点分别为455.84、390.25、250.04、89.95。其中“上网时间长度”显示,学生的学习成绩是和其息息相关的,我们要侧重两个时间点,上网时长250.04小时与390.25小时,应据此研究的时间断点,制定合理的校园网络管理控制措施,还可以在六盘水高校学生学习方面,利用我们的研究结果决策分析,制定更加完美的教学方法。当然,我们还希望进一步深入研究我们的数据挖掘方法,这样就可以针对高校学生上网制定富有操作性和生命力的网络道德行为规范,筑坚强的护盾与心灵。
参考文献:
[1]胡祖辉,施佺.高校学生上网行为分析与数据挖掘研究.中国远程教育,2017-02-28.
[2]邓运,陈晓军.基于大数据分析高校学生行为季刊.福建电脑,2018-09-25.
[3]龙虎,李娜大数据技术下的机器学习平台构建研究.电脑知识与技术,2019-04-05.