论文部分内容阅读
摘 要:教育领域的大数据挖掘注重分析数据的全面性和潜在的高价值。本文以浙江省教师在线教育平台中一门课程作为研究对象,采用日志统计、结构变换、可视化、象限分析等大数据处理技术,从资源活跃度、搜索词关联度这两个框架维度,对网络学习平台的日志和互动版块进行数据挖掘,研究并解析学员群体在线学习特性和学习习惯。同时,以学习效果相关性这个维度分析平台功能模块设置合理性。这些挖掘结果可为评估平台的在线培训进展情况、优化平台学习支持服务等提供量化参考。
关键词:大数据;在线教育;象限;维度;日志
中图分类号:G726 文献标识码:A
一、引言
大数据作为信息技术发展的新趋势,已经渗透到各行各业,成为重要的驱动因素,教育也无法置身事外。国内外许多专家指出, 教育中的大数据挖掘,涉及教学进程、教学评估、教学管理、教学决策、教学反馈、个性化算法等各个方面。在数据分析驱动教育变革的大数据时代,教育领域蕴藏着广泛应用价值的海量数据,利用教育数据挖掘和学习具有分析技术,构建教学结构的相关模型,探索教学变量之间的相关关系,为教育教学决策提供有效的支持将成为未来教育的常态发展趋势。
从2014年上半年开始,本人负责开发的本市第一家面向浙江省中小学、幼儿园教师培训的网络学习平台正式开始投入运营。平台在师范生、教育硕士培养以及基础教育教师培训中得到良好的应用,支撑了教师教育创新,彰显了终身学习和开放学习的理念。在日常的运营过程中,教师学员在平台中日常的点击、浏览、视频操作、拖放、处理等一系列动作,无时无刻产生着海量的行为数据;除此之外,授课专家与学员的讨论区、学员与学员之间的互动区访问量都非常大,平台的论坛每天都更新数百条帖子,教师学员们在课程聊天室、Wiki、互动区一直处于超活跃状态,在这个过程中,平台也累积了大量的学员互动数据。
在这样的背景下,本文选取平台中的一门在线课程作为研究对象,研究并构建大数据挖掘与分析机制,对这些纷繁复杂的数据进行提炼和分析,进行有效地利用开发,发现这些数据的背后蕴含的学员行为轨迹,捕捉学员群体或个体的学习行为、学习习惯,跟踪学员的成长轨迹,发掘平台本身所带有的不合理模块资源,进而改进平台功能模块、教学资源。平台中大数据的有效应用将会弥补目前国内教师在线教育的海量数据分析空白,具有非常突出的意义,除了促进教师教育培训模式的多样化和个性化定制,同时也会对我国各类在线教育提供大量的参考和启示。
二、平台大数据分析机制
平台学习分析的指导思路是选取数据聚集的各关键因素,运用大数据技术挖掘学员的平台登录细节、浏览页面、资源搜索词关联度、搜索频次、资源操作细节、互动研讨语义内容等信息轨迹,并在此基础上采用大数据集群算法和趋势探测等数学性算法过程,深度解析平台学员的学习行为数据和模式。
本文在借鉴瑞典斯德哥尔摩大学在线教育学习分析模式的基础上,以遵循“Teschura”分析技术作为数据挖掘支撑,规划了平台学习数据分析三元架构。如图1所示,平台大数据分析架构包括资源活跃度分析、搜索词关联度解析、学习效果相关性分析三大部分。其中资源活跃度分析是页面数据挖掘的首要步骤,主要包括页面占用细节、登录信息、独立访客等要素,通过数据集分析组件Oracle Server Analysis Service与下一步骤绑定。搜索词关联度解析既是本文学习分析的核心架构组件,也是本文学习分析的创新点之一,该模块旨在重组学员群体热点搜索词的相关性,挖掘学员群体的教学兴趣聚点,以此为依据重构并优化平台教学资源。学习效果相关性分析是三元分析架构的关键分析组件,以高性能网格算法HPCC,面向解决方案的标签工具RapidMiner作为分析工具,将各教学功能模块的使用率与学员群体的学习效果的相关性为研究对象,以此为依据来优化各教学模块在平台kecheng 中的比重。
三、基于学员的大数据行为分析
平台数据挖掘功能的首要任务就是进行资源活跃度分析,包括资源访问频次(V V)、独立访客(UV)、浏览次数(PV)、独立访问IP数(IP)、链接来源(SA)、站点停留时间(Ts)、页面停留时间(Tp),继而采用站点分析专有的全景统计、站长统计、流量分析、来源分析、转化分析、报表展示等手段,从资源利用角度来显现站点学员学习行为和习惯,并揭示平台的缺陷和优化方向。
本研究以浙江省中小幼教师教育EduSoho培训平台中2016年下半年的后台数据为参考,并选取平台中的一门在线课程——“教师课件设计实用技巧与案例详解”(简称“课件技巧与案例”)作为研究对象。该门课程总共包含六章,其中按照课程教学重难点可分为九大版块内容,包括:动画、图表、音视频、插件、控件、图片高级技巧、超链接、模板、案例,开课时间为2016年10月15日至2017年1月15日,跨度三个月,这一时间段该门课程的选课总人数为2613人。
(一)资源活跃度分析
对资源活跃度的分析主要关注3个参数:I P、UV、PV。独立访问IP数(IP),可统计学员在访问站点时的IP地址,该项参数与站点停留时间(Ts)、页面停留时间(Tp)这两项参数一同进行分析,便可挖掘出学员浏览平台的集中时间段和学习习惯等基础数据。浏览次数(PV),即通常所说的PageView值,学员每打开1个站点页面,记录1个PV,当学员多次打开同一页面则PV累积计算,用以衡量站点資源访问情况。独立访客(UV),单日内访问站点页面的访客数,相同访客多次访问站点页面,仍计算为1个独立访客。
如图2所示,通过日均P V、I P地址基础数据的挖掘整理,工作日白天有3个学员井喷时间段,分别是9:30-10:00、13:00-14:00、15:30-17:00,而这三段时间正好对应着是各校学生的课间休息阶段和下午的自习阶段,大多数的学员更倾向于利用常规工作空余时间进行该门课程的学习。同时,这三个井喷时间段中的U V值远大于I P值,通过比对发现同一学校不同教师学员在访问站点时,平台所追溯的IP地址相同,则可推断为大部分学员更喜好在工作地点进行学习。而且个人每次登录学习的时间并不长,基本上平均每次以8-11分钟为主,甚至在线持续时间为3-6分钟的也占了相当一部分比重。出乎大多数研究人员的预料,根据日志数据统计,如图3所示,总体来看非工作日平台中学习的学员人数一直保持在低位,小幅度起伏不足以成为变化标准。由此可见,学员更善于在工作进度中充分利用空余时间、闲散时间进行知识点和技能的学习,与传统的教学方式差异明显,更加符合碎片化学习的趋势。
对课程九大版块内容的PV与UV值比对中同样可以发现问题。如图4所示,插件、控件、超链接的资源访问度的UV值处于低位,但PV值非常高,两者的访问数据值差异很大,则表明这3部分版块内容尽管并不吸引所有学员的关注,但有一部分特定的学员对该页面资源的持续学习热度比较高。因此,可将插件、控件、超链接这3个模块内容整合为专题版块,并在互动区中划分专门的区域为这3块教学内容提供专题服务。
链接来源(S A),即追溯当前浏览页面的链接跳转源,用以分析站点内各页面的相互链接情况。这里需要引入一个平台特有的参数“网页抓取黏虫”(earmyworm),依据搜索关键词,黏虫earmyworm通过各模块中的超链接分析访问抓取相关度资源,按照所抓取的资源数给earmyworm赋值,一旦earmyworm数值大于零,则代表着搜索工具被调用。利用矩阵工厂MatLab对被访问的资源模块进行数据集仿真,并展现数据可视化效果,如图5所示。由图可见,在众多教学资源板块中,访问“互动研讨资源”“教学视频资源”“教学实践工具”时earmyworm的调用频次都处于高位,其中“互动研讨资源”的earmyworm调用频次最高,反映了互动研讨模块对学员的黏度非常高,在学员学习过程中扮演了重要作用,学员在该模块中具有很强的学习深度;同时也说明了互动研讨板块与其他板块的关联性不高,学员通过平台中的搜索工具寻找资源是大概率事件,因此平台在进一步的改进中应该有很大的提升空间。
(三)课程搜索关键词相关性分析
该门课程中的资源内容,包括各个章节、视频或其他资源,都包含若干数量不等的关键词,用以描述该资源的主要展示内容和说明相关性热点。如果几个关键词在多个资源内容中重复出现,就可以说明这些关键词具有某种相关性;而一旦关键词共现的频次较高且稳定,则可以认为具有必然联系。
利用平台插件iquerypress对该门课程的搜索关键词进行频次统计,刨去出现频次可忽略不计的关键词外,按出现频次高低对搜索关键词进行归类汇总、聚类分析、排序,首先以资源搜索分析的视角建立共词频次矩陣,如表1所示。
共词频次矩阵是关联频次矩阵,表中对角线中的数据表示为所对应的搜索关键词出现的频次,而其它位置中的数据则表示所对应横排和竖排关键词的共同搜索频次。如搜索关键词“动画”共出现263次,而搜索词“动画”和“触发器”共同出现75次,也可以理解成采用逻辑方式“与”搜索“动画”和“触发器”的频次为75,依次类推。
相似矩阵中的数据可成为非对称聚合数据,其数值大小表明矩阵关键词的相似程度,数据越大则表明搜索关键词之间相似度越小,距离越远;反之则表明搜索关键词之间的相似度越大,距离越近。运用SPSS的整群分析——聚类——异类——多维整编进行搜索关键词图谱分析,得到如图6所示的课程搜索关键词多维尺度图。
对搜索关键词共词研究采用关键词图谱分析,如图6所示,靠得近的关键词在教学指导中具有更好的关联性。关键词搜索集中分布于第二、第三、第四象限,第二象限中“动画”“触发器”“音频”比较集中,说明这三个搜索关键词的相关度比较高;第三象限中“视频”“插件”“控件”比较集中,说明这三个搜索关键词相关度比较高;第四象限中“图片处理”“羽化效果”“透明度”“艺术字效果”比较集中,说明这四个搜索关键词相关度比较高;而第一象限只有“公式编辑器”关键词分布,这说明“公式编辑器”与其它搜索范畴的相关性不大,孤立度较高。因此,图中关键词的搜索关联分布对在线平台中学习资料的改进具有很好的指导作用。以搜索关键词多维象限图谱为依据,调整教学内容关联度,资源的优化注重将象限图中贴近的关键词进行教学内容的重新整合。包括:进行“图片处理”学习资源教学设计的时候应注重与“羽化效果”“透明度”“艺术字效果”内容的融合;“动画”的资源设计应重视嵌入“触发器”“音频”教学内容;“控件”教学内容的搭建的应积极地创设与“插件”“视频操作”教学内容的整合。
(四)学习效果分析
学员模块点击率与学习效果的相关性一直是文章研究的重点。日常在线学习行为与学习效果的相关性是掌握学员学习习惯的主要因素,也是判断平台功能模块设置合理性的关键。选取本课程中的热点教学资源为研究对象,通过格鲁姆—拉格瑞斯(Grum-Lagrus)解析式(式1)对统计的各时间占比进行频次解析,并将频次的访问版块相关性进行分类,可得互动版块频次、Wiki版块频次、视频浏览频次、文本浏览频次、SCORM/AICC频次五大重点研究频次。
其中;Si为第i个学员的学习效果平分数,Wi为第i个学员的学习时长,d为德佩因子,β为希莱尔系数,αi为第i个学员的点击频次。剔除相关度不高的版块访问粒度,进一步通过access-frequency-relevanteffect进行中心频次颗粒度分析,并以二维相关颗粒象限的形式展现相关性动图,如图7所示分别为学习效果与WiKi、文本、视频、互动区版块访问的二维象限相关颗粒图,展现随机选取的学员群体在线频次与学习效果的分布情况。
图7中红色小圆和黑色正方形分别对应访问不同功能版块与学习效果的相关颗粒图。由图可见,文本内容和Wiki协作的学习时间占比对学员最终学习效果的影响十分有限,也就是说在这两个模块中投入的学习热度与最终的学习成效不成正比关系,在文本教学中的投入对学员课程成绩收效甚微。因此,有必要精简文本内容,摒弃繁冗和点击量低的文本内容。学员如果单纯地在这两个板块学习中倾注大量的精力并不能有效提高本课程的学习效果,也无法提升自身的课件开发技能。
如图所示,通过随机样本的在线测试日志发现,在最终学习成绩突出和学习效果提升明显的学员群体中,大部分学员在聊天室、论坛等互动讨论版块中所投入的时间占比较高;而且,通过社交分析工具的统计,在互动研讨区中活跃度越高的学员,其课程学习成绩突出的比率就越高。换一个角度来分析,学员的学习时间占比对最终学习效果的影响很大。因此,学员群体对互动研讨区的青睐只是表象,通过在互动研讨区中的学习能实现事半功倍的效果才是最主要的因素,实际上也揭示了互动协作的过程对学员在线学习的重要性。
四、结语
目前尽管国内关于大数据挖掘的理論研究进行得如火如荼,但各网络课程平台的教育数据挖掘却做得非常有限。因此,建立我省第一个以大数据挖掘作为支撑的教师教育网络培训平台,这既是在线教育发展的必然趋势,同时也是本文的最大创新之处。本文从技术层面实现对在线教师学员多元学习行为数据的量化与评测,对学员的学习喜好和学习习惯进行了梳理,探索了教学版块与学习效果的相关关系,并以可视化的形式进行了展现。因此,大数据所分析和揭示的种种在线教学的现象,有助于我们更好地了解学员的行为特性,以学员的角度来发现问题,并以此为契机改进平台。事实上,大数据在教师在线教育中的作用可以多维度延伸,包括教学资源个性化指导、个性化学习路径推荐、教学互动多样化等。而如何规划大数据与学习分析,使数据分析能有效地运行才是重中之重。
参考文献
[1]Vernon J.Open online courses-an avalanche that might just get stopped[N]. The Guardian,2013.
[2]Grainger,B.Introduction to MOOCs:Avalanche,illusion or augmentation?[M]. Moscow:UNESCO Institute for Information Technologies in Education,2013.
[3]杨永林,张世蓉,丁韬等.从“慕课”到“小微课”,看大数据在教学中的应用[J].现代教育技术,2014(12)
[4]张云春,薛岗,何婧,赵娜.基于MOOC嵌入式教学的数据挖掘教学改革初探[J].计算机教育,2015(13).
[5]李曼丽,黄振中.M O O C s平台大数据的教育实证[J].科学通报,2015(Z1).
[6]祝智庭,沈德梅.基于大数据的教育技术研究新范式[J].电化教育研究,2013(10)
[7]Daniel J. Making sense of MOOCs:Musings in a maze of myth, paradox and possibility. J Interact Med Educat,2012(3).
[8]刘艳华,徐鹏.大数据教育应用研究综述及其典型案例解析——以美国普渡大学课程信号项目为例[J].软件导刊,2014(12).
[9]PISTILLI,M.D,ARNOLE,K.E.Purdue signals:mining realtime academic data to enhance student success[J].About Campus:Enriching the student learning experience,2010(3).
[10]ARNOLD,K.E,PISTILLI,M.D.Course signals at purdue:using learning analytics to increase student success[C].New York:ACM Press,2012
关键词:大数据;在线教育;象限;维度;日志
中图分类号:G726 文献标识码:A
一、引言
大数据作为信息技术发展的新趋势,已经渗透到各行各业,成为重要的驱动因素,教育也无法置身事外。国内外许多专家指出, 教育中的大数据挖掘,涉及教学进程、教学评估、教学管理、教学决策、教学反馈、个性化算法等各个方面。在数据分析驱动教育变革的大数据时代,教育领域蕴藏着广泛应用价值的海量数据,利用教育数据挖掘和学习具有分析技术,构建教学结构的相关模型,探索教学变量之间的相关关系,为教育教学决策提供有效的支持将成为未来教育的常态发展趋势。
从2014年上半年开始,本人负责开发的本市第一家面向浙江省中小学、幼儿园教师培训的网络学习平台正式开始投入运营。平台在师范生、教育硕士培养以及基础教育教师培训中得到良好的应用,支撑了教师教育创新,彰显了终身学习和开放学习的理念。在日常的运营过程中,教师学员在平台中日常的点击、浏览、视频操作、拖放、处理等一系列动作,无时无刻产生着海量的行为数据;除此之外,授课专家与学员的讨论区、学员与学员之间的互动区访问量都非常大,平台的论坛每天都更新数百条帖子,教师学员们在课程聊天室、Wiki、互动区一直处于超活跃状态,在这个过程中,平台也累积了大量的学员互动数据。
在这样的背景下,本文选取平台中的一门在线课程作为研究对象,研究并构建大数据挖掘与分析机制,对这些纷繁复杂的数据进行提炼和分析,进行有效地利用开发,发现这些数据的背后蕴含的学员行为轨迹,捕捉学员群体或个体的学习行为、学习习惯,跟踪学员的成长轨迹,发掘平台本身所带有的不合理模块资源,进而改进平台功能模块、教学资源。平台中大数据的有效应用将会弥补目前国内教师在线教育的海量数据分析空白,具有非常突出的意义,除了促进教师教育培训模式的多样化和个性化定制,同时也会对我国各类在线教育提供大量的参考和启示。
二、平台大数据分析机制
平台学习分析的指导思路是选取数据聚集的各关键因素,运用大数据技术挖掘学员的平台登录细节、浏览页面、资源搜索词关联度、搜索频次、资源操作细节、互动研讨语义内容等信息轨迹,并在此基础上采用大数据集群算法和趋势探测等数学性算法过程,深度解析平台学员的学习行为数据和模式。
本文在借鉴瑞典斯德哥尔摩大学在线教育学习分析模式的基础上,以遵循“Teschura”分析技术作为数据挖掘支撑,规划了平台学习数据分析三元架构。如图1所示,平台大数据分析架构包括资源活跃度分析、搜索词关联度解析、学习效果相关性分析三大部分。其中资源活跃度分析是页面数据挖掘的首要步骤,主要包括页面占用细节、登录信息、独立访客等要素,通过数据集分析组件Oracle Server Analysis Service与下一步骤绑定。搜索词关联度解析既是本文学习分析的核心架构组件,也是本文学习分析的创新点之一,该模块旨在重组学员群体热点搜索词的相关性,挖掘学员群体的教学兴趣聚点,以此为依据重构并优化平台教学资源。学习效果相关性分析是三元分析架构的关键分析组件,以高性能网格算法HPCC,面向解决方案的标签工具RapidMiner作为分析工具,将各教学功能模块的使用率与学员群体的学习效果的相关性为研究对象,以此为依据来优化各教学模块在平台kecheng 中的比重。
三、基于学员的大数据行为分析
平台数据挖掘功能的首要任务就是进行资源活跃度分析,包括资源访问频次(V V)、独立访客(UV)、浏览次数(PV)、独立访问IP数(IP)、链接来源(SA)、站点停留时间(Ts)、页面停留时间(Tp),继而采用站点分析专有的全景统计、站长统计、流量分析、来源分析、转化分析、报表展示等手段,从资源利用角度来显现站点学员学习行为和习惯,并揭示平台的缺陷和优化方向。
本研究以浙江省中小幼教师教育EduSoho培训平台中2016年下半年的后台数据为参考,并选取平台中的一门在线课程——“教师课件设计实用技巧与案例详解”(简称“课件技巧与案例”)作为研究对象。该门课程总共包含六章,其中按照课程教学重难点可分为九大版块内容,包括:动画、图表、音视频、插件、控件、图片高级技巧、超链接、模板、案例,开课时间为2016年10月15日至2017年1月15日,跨度三个月,这一时间段该门课程的选课总人数为2613人。
(一)资源活跃度分析
对资源活跃度的分析主要关注3个参数:I P、UV、PV。独立访问IP数(IP),可统计学员在访问站点时的IP地址,该项参数与站点停留时间(Ts)、页面停留时间(Tp)这两项参数一同进行分析,便可挖掘出学员浏览平台的集中时间段和学习习惯等基础数据。浏览次数(PV),即通常所说的PageView值,学员每打开1个站点页面,记录1个PV,当学员多次打开同一页面则PV累积计算,用以衡量站点資源访问情况。独立访客(UV),单日内访问站点页面的访客数,相同访客多次访问站点页面,仍计算为1个独立访客。
如图2所示,通过日均P V、I P地址基础数据的挖掘整理,工作日白天有3个学员井喷时间段,分别是9:30-10:00、13:00-14:00、15:30-17:00,而这三段时间正好对应着是各校学生的课间休息阶段和下午的自习阶段,大多数的学员更倾向于利用常规工作空余时间进行该门课程的学习。同时,这三个井喷时间段中的U V值远大于I P值,通过比对发现同一学校不同教师学员在访问站点时,平台所追溯的IP地址相同,则可推断为大部分学员更喜好在工作地点进行学习。而且个人每次登录学习的时间并不长,基本上平均每次以8-11分钟为主,甚至在线持续时间为3-6分钟的也占了相当一部分比重。出乎大多数研究人员的预料,根据日志数据统计,如图3所示,总体来看非工作日平台中学习的学员人数一直保持在低位,小幅度起伏不足以成为变化标准。由此可见,学员更善于在工作进度中充分利用空余时间、闲散时间进行知识点和技能的学习,与传统的教学方式差异明显,更加符合碎片化学习的趋势。
对课程九大版块内容的PV与UV值比对中同样可以发现问题。如图4所示,插件、控件、超链接的资源访问度的UV值处于低位,但PV值非常高,两者的访问数据值差异很大,则表明这3部分版块内容尽管并不吸引所有学员的关注,但有一部分特定的学员对该页面资源的持续学习热度比较高。因此,可将插件、控件、超链接这3个模块内容整合为专题版块,并在互动区中划分专门的区域为这3块教学内容提供专题服务。
链接来源(S A),即追溯当前浏览页面的链接跳转源,用以分析站点内各页面的相互链接情况。这里需要引入一个平台特有的参数“网页抓取黏虫”(earmyworm),依据搜索关键词,黏虫earmyworm通过各模块中的超链接分析访问抓取相关度资源,按照所抓取的资源数给earmyworm赋值,一旦earmyworm数值大于零,则代表着搜索工具被调用。利用矩阵工厂MatLab对被访问的资源模块进行数据集仿真,并展现数据可视化效果,如图5所示。由图可见,在众多教学资源板块中,访问“互动研讨资源”“教学视频资源”“教学实践工具”时earmyworm的调用频次都处于高位,其中“互动研讨资源”的earmyworm调用频次最高,反映了互动研讨模块对学员的黏度非常高,在学员学习过程中扮演了重要作用,学员在该模块中具有很强的学习深度;同时也说明了互动研讨板块与其他板块的关联性不高,学员通过平台中的搜索工具寻找资源是大概率事件,因此平台在进一步的改进中应该有很大的提升空间。
(三)课程搜索关键词相关性分析
该门课程中的资源内容,包括各个章节、视频或其他资源,都包含若干数量不等的关键词,用以描述该资源的主要展示内容和说明相关性热点。如果几个关键词在多个资源内容中重复出现,就可以说明这些关键词具有某种相关性;而一旦关键词共现的频次较高且稳定,则可以认为具有必然联系。
利用平台插件iquerypress对该门课程的搜索关键词进行频次统计,刨去出现频次可忽略不计的关键词外,按出现频次高低对搜索关键词进行归类汇总、聚类分析、排序,首先以资源搜索分析的视角建立共词频次矩陣,如表1所示。
共词频次矩阵是关联频次矩阵,表中对角线中的数据表示为所对应的搜索关键词出现的频次,而其它位置中的数据则表示所对应横排和竖排关键词的共同搜索频次。如搜索关键词“动画”共出现263次,而搜索词“动画”和“触发器”共同出现75次,也可以理解成采用逻辑方式“与”搜索“动画”和“触发器”的频次为75,依次类推。
相似矩阵中的数据可成为非对称聚合数据,其数值大小表明矩阵关键词的相似程度,数据越大则表明搜索关键词之间相似度越小,距离越远;反之则表明搜索关键词之间的相似度越大,距离越近。运用SPSS的整群分析——聚类——异类——多维整编进行搜索关键词图谱分析,得到如图6所示的课程搜索关键词多维尺度图。
对搜索关键词共词研究采用关键词图谱分析,如图6所示,靠得近的关键词在教学指导中具有更好的关联性。关键词搜索集中分布于第二、第三、第四象限,第二象限中“动画”“触发器”“音频”比较集中,说明这三个搜索关键词的相关度比较高;第三象限中“视频”“插件”“控件”比较集中,说明这三个搜索关键词相关度比较高;第四象限中“图片处理”“羽化效果”“透明度”“艺术字效果”比较集中,说明这四个搜索关键词相关度比较高;而第一象限只有“公式编辑器”关键词分布,这说明“公式编辑器”与其它搜索范畴的相关性不大,孤立度较高。因此,图中关键词的搜索关联分布对在线平台中学习资料的改进具有很好的指导作用。以搜索关键词多维象限图谱为依据,调整教学内容关联度,资源的优化注重将象限图中贴近的关键词进行教学内容的重新整合。包括:进行“图片处理”学习资源教学设计的时候应注重与“羽化效果”“透明度”“艺术字效果”内容的融合;“动画”的资源设计应重视嵌入“触发器”“音频”教学内容;“控件”教学内容的搭建的应积极地创设与“插件”“视频操作”教学内容的整合。
(四)学习效果分析
学员模块点击率与学习效果的相关性一直是文章研究的重点。日常在线学习行为与学习效果的相关性是掌握学员学习习惯的主要因素,也是判断平台功能模块设置合理性的关键。选取本课程中的热点教学资源为研究对象,通过格鲁姆—拉格瑞斯(Grum-Lagrus)解析式(式1)对统计的各时间占比进行频次解析,并将频次的访问版块相关性进行分类,可得互动版块频次、Wiki版块频次、视频浏览频次、文本浏览频次、SCORM/AICC频次五大重点研究频次。
其中;Si为第i个学员的学习效果平分数,Wi为第i个学员的学习时长,d为德佩因子,β为希莱尔系数,αi为第i个学员的点击频次。剔除相关度不高的版块访问粒度,进一步通过access-frequency-relevanteffect进行中心频次颗粒度分析,并以二维相关颗粒象限的形式展现相关性动图,如图7所示分别为学习效果与WiKi、文本、视频、互动区版块访问的二维象限相关颗粒图,展现随机选取的学员群体在线频次与学习效果的分布情况。
图7中红色小圆和黑色正方形分别对应访问不同功能版块与学习效果的相关颗粒图。由图可见,文本内容和Wiki协作的学习时间占比对学员最终学习效果的影响十分有限,也就是说在这两个模块中投入的学习热度与最终的学习成效不成正比关系,在文本教学中的投入对学员课程成绩收效甚微。因此,有必要精简文本内容,摒弃繁冗和点击量低的文本内容。学员如果单纯地在这两个板块学习中倾注大量的精力并不能有效提高本课程的学习效果,也无法提升自身的课件开发技能。
如图所示,通过随机样本的在线测试日志发现,在最终学习成绩突出和学习效果提升明显的学员群体中,大部分学员在聊天室、论坛等互动讨论版块中所投入的时间占比较高;而且,通过社交分析工具的统计,在互动研讨区中活跃度越高的学员,其课程学习成绩突出的比率就越高。换一个角度来分析,学员的学习时间占比对最终学习效果的影响很大。因此,学员群体对互动研讨区的青睐只是表象,通过在互动研讨区中的学习能实现事半功倍的效果才是最主要的因素,实际上也揭示了互动协作的过程对学员在线学习的重要性。
四、结语
目前尽管国内关于大数据挖掘的理論研究进行得如火如荼,但各网络课程平台的教育数据挖掘却做得非常有限。因此,建立我省第一个以大数据挖掘作为支撑的教师教育网络培训平台,这既是在线教育发展的必然趋势,同时也是本文的最大创新之处。本文从技术层面实现对在线教师学员多元学习行为数据的量化与评测,对学员的学习喜好和学习习惯进行了梳理,探索了教学版块与学习效果的相关关系,并以可视化的形式进行了展现。因此,大数据所分析和揭示的种种在线教学的现象,有助于我们更好地了解学员的行为特性,以学员的角度来发现问题,并以此为契机改进平台。事实上,大数据在教师在线教育中的作用可以多维度延伸,包括教学资源个性化指导、个性化学习路径推荐、教学互动多样化等。而如何规划大数据与学习分析,使数据分析能有效地运行才是重中之重。
参考文献
[1]Vernon J.Open online courses-an avalanche that might just get stopped[N]. The Guardian,2013.
[2]Grainger,B.Introduction to MOOCs:Avalanche,illusion or augmentation?[M]. Moscow:UNESCO Institute for Information Technologies in Education,2013.
[3]杨永林,张世蓉,丁韬等.从“慕课”到“小微课”,看大数据在教学中的应用[J].现代教育技术,2014(12)
[4]张云春,薛岗,何婧,赵娜.基于MOOC嵌入式教学的数据挖掘教学改革初探[J].计算机教育,2015(13).
[5]李曼丽,黄振中.M O O C s平台大数据的教育实证[J].科学通报,2015(Z1).
[6]祝智庭,沈德梅.基于大数据的教育技术研究新范式[J].电化教育研究,2013(10)
[7]Daniel J. Making sense of MOOCs:Musings in a maze of myth, paradox and possibility. J Interact Med Educat,2012(3).
[8]刘艳华,徐鹏.大数据教育应用研究综述及其典型案例解析——以美国普渡大学课程信号项目为例[J].软件导刊,2014(12).
[9]PISTILLI,M.D,ARNOLE,K.E.Purdue signals:mining realtime academic data to enhance student success[J].About Campus:Enriching the student learning experience,2010(3).
[10]ARNOLD,K.E,PISTILLI,M.D.Course signals at purdue:using learning analytics to increase student success[C].New York:ACM Press,2012