论文部分内容阅读
[摘 要] 私播课(Small Private Online Course, SPOC)論坛中的非结构性文本蕴含学习者认知和内部心理加工过程,对其分析有助于理解和解释学习结果的成因。以64名学生在SPOC论坛中的会话文本为对象进行数据挖掘,结合LDA主题建模和隐马尔可夫模型对学习者会话行为进行实体建模,并比较高低绩效组会话行为差异,最后运用回归分析和卡方检验探索了影响学习绩效的行为模式。结论表明高低绩效组的学习行为转移存在明显差异,高绩效组的行为转移具有渐进性和平滑性,倾向于序次解决问题,而低绩效组的行为转移则更倾向于浅层回溯。信息查阅、信息加工、信息发布、协作交互、问题解决和信息评价行为均与学习成绩有关,但信息查阅行为对学习成绩有着显著正向影响,且较多的协作交互和信息评价行为能够触发学习者的高阶认知。通过教育文本数据挖掘,教师能够发现不同群体的行为特征,从而进行适应性指导和精准教学,促进学习者高阶思维发展。
[关键词] LDA主题模型; 隐马可夫模型; 学习行为; 学习绩效
[中图分类号] G434 [文献标志码] A
[作者简介] 张思(1983—),男,湖南长沙人。副教授,博士,主要从事计算机支持的协作学习与学习分析技术研究。E-mail:[email protected]。杨海茹为通讯作者,E-mail:[email protected]。
一、引 言
教育大数据在教育的发展与变革中正起着颠覆性的作用,从海量的教育信息中发现规律、诊断问题以及准确预测具有重要价值。在线教学中学生通过文本进行交流,学习平台上大量的非结构性文本数据是学生内隐行为的外化,文本数据往往更能够反映学习者的认知、学习动机、情感态度和学习体验[1]。不同认知水平的学习者其认知模式不同,在信息的加工与处理、接受学习的成效上都有所不同[2]。利用大数据技术对文本数据进行挖掘和分析可以得出与学习者学习状况相关的行为、认知等信息,同时能够对教学中的问题和现象进行解释。利用文本挖掘开展学习分析有助于教师进行个性化学习设计和教学决策,从而优化教与学,但仅仅通过分析学习者在任务上的投入时间和精力并不能细致判别学习者的投入程度,而通过细粒度的学习行为序列挖掘更能体现学习者的认知过程和行为轨迹。
本研究以学习者发布在SPOC论坛中的会话文本数据为研究对象进行数据挖掘,对文本数据进行主题建模及行为转移概率分析,并探索行为序列和学习成绩的关系,目的是厘清影响在线学习绩效的关键因素,提升在线学习质量。
二、文献综述
(一)学习行为识别与建模
1. LDA主题分析
在自然语言处理领域,主题模型广泛应用于文本聚类和分类[3]、文本情感分析[4]、话题的检测与演变[5]等。潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)是一种文档主题生成模型,由Blei等人首先提出,其包含了文档、主题和词三层结构,是一个降低文本表示维度的三层贝叶斯概率模型,广泛应用于语义挖掘领域。LDA非监督模型能够得出主题分布,通过计算相似度进行聚类,在计算准确度和聚类效果上优势明显。
2. HMM建模
隐马尔可夫模型(Hidden Markov Model,HMM)是一种概率统计模型,由Baum等人提出,能够应用在多种领域中。HMM模型包含观察层和隐藏层,可以用五元组λ=(V,Q,π,A,B)进行表示,在五元组中,可观测值的序列集合是V,隐状态序列集合是Q,初始状态转移向量是π,状态转移概率的矩阵是A,生成的观测概率矩阵是B。隐马尔可夫模型可用于解决评估、学习和解码三类问题,并识别出隐状态之间的转移概率。同时,通过隐藏状态对数据结构的潜在变化进行表示,HMM能够更好适应和解释模型。隐马尔可夫模型在语言识别、词性标注等方面得到了广泛应用,是一种重要的统计模型。在线学习中,通过HMM模型可以识别不同学习群体的交互活动序列。
(二)数据驱动的学习行为建模
学习行为是学习者为了获得某种学习结果,在动机的指引下与周围环境双向交互活动的总和。在SPOC论坛中,学习者利用信息技术在丰富的学习环境中进行沟通交流,开展自主与协作学习的活动总和称为网络学习行为,也称在线学习行为。在学习行为分类上,彭文辉等将网络学习行为分为低级、中级和高级三个层次,并将在线学习行为分为收集信息、加工整理信息、发布信息、交流信息和使用信息五类。庄科君将网络学习行为分为操作行为、信息交互行为、意义建构行为和问题解决行为。王海丽对网络学习行为进行划分并构建了六层模型,从底层至上层依次为信息查阅行为、信息加工行为、信息发布行为、信息交互行为、问题解决行为和信息评价行为。相关研究从理论视角探讨了在线学习行为的分类方法,在线学习行为分类和标记依赖人工方法解决问题,缺乏从底层数据出发的会话行为自动建模方法与技术。对于在线教育的分析和干预而言,需要精准、可复制、具备较强通用性和解释力的模型,但适配的学习分析技术亟待出现。
(三)学习行为与学习成效的关系研究
在线学习行为与学习成效密切相关,是预测学习成效的重要指标,分析学习者的在线学习行为能够促进学习者的有意义和有效学习。研究表明学习者发布的讨论数量与其在线课程的学习成效具有显著的关系,通过探索观看视频次数、提交测验次数、发帖与回帖次数等行为特征与学习成绩间的关系,可以预测学习者的学习成绩。Cerezo从学习者在六个不同任务中分别花费的时长出发,将学习者进行聚类和分类并比较不同类别间的差异。赵呈领从学习资源的视角出发,依据观看视频、浏览文档、发布讨论主题、阅读回复讨论和参考作业模板等网络学习行为的时长进行聚类,探究了在线学习者学习行为模式和学习成效之间的关系。江波等人利用虚拟仿真平台从学生的学习行为特征出发进行定量描述,得出九种行为中五种学习行为与学习成绩相关。相关研究较多探索了学习者外在行为表现与学习绩效的关系,而学习者内隐行为特征与学习绩效的关系则较少关注。随着人工智能与大数据技术的发展,学习者内隐行为特征的智能分析成为可能,结合学习者内隐行为特征探索学习行为与学习绩效的关系,其结果将更具准确性和可解释性。 三、研究设计
(一)研究情景、對象与数据源
研究对象为某师范院校的高年级本科生。数据来源于“信息技术教学应用”课程。课程采用协作学习的模式,师生共同探讨信息技术和课程教学深度融合的方法和技术。所有小组通过SPOC论坛进行讨论与交流。协作活动流程分为教学设计初稿、教学设计互评、教学设计修改与完善、教学课件初稿、教学课件互评、教学课件修改与完善六个阶段。本研究收集了学生于2020年2月至2020年7月在SPOC论坛中讨论的帖子。一共有64名学生,分为13个小组参与了课程的讨论和学习,并最终取得了成绩,平均分是86.81,标准差为3.605。SPOC论坛上共产生6616条讨论帖,处理和筛选后最终获得4928条讨论帖。
(二)数据的处理与分析
1. 确定最优主题数和主题的方法
数据获取字段包括学生个人信息、评论时间、评论文本和回复文本等。为产生理想的主题建模效果,筛选与课堂内容相关的帖子并控制帖子长度在4个字符以上。经过文本数据分词、去停用词、过滤无关字符等操作,并利用Python语言的gensim库计算困惑度(Perplexity)。当主题之间相似度最小时,主题建模最优,困惑度值可用于确定最佳主题数。困惑度值越小,模型的效果越好。困惑度计算如公式(1)所示。
Perplexity(D)为数据集的困惑度,式中M表示一共M篇文档,Nd表示语料库中第d个文档所包含的词数,p表示文档d中的词的生成概率。结果表明当主题数为19时,困惑度数值最小,因而选择19作为最佳主题数。确定主题数后利用Python语言的gensim库实现LDA主题抽取,形成文档—主题和主题—词的概率分布。
2. 隐马尔可夫模型方法
HMM模型既能发现隐状态和观测值之间的对应关系,也能发现状态间的概率转移关系。通过训练,HMM可以自动构造和识别模型,从而得出参数。首先要确定隐状态的个数。研究使用LDA主题建模结果,通过在Matlab中输入不同的隐状态数值进行HMM训练,依据BIC值确定最终隐状态的个数。BIC的计算方法如公式(2)所示。
其中L是模型似然函数值,P是自由参数的个数,N是数据点的数量。BIC的数值最小时,模型结果最优,结果见表1。当状态数取值为6时,BIC的值最小,因此设置隐状态数即学习行为分类数为6。将隐状态数6,主题数19输入到HMM中生成了转移和观测概率矩阵,见表2。转移矩阵表示行为之间的转移概率情况,而观测概率矩阵则表示在y的情况下,输出为x的概率。通过观测概率矩阵找出每个主题在行为(B1-B6)中对应的最大概率,从而确定主题所对应的学习行为分类。
四、研究结果与分析
(一)主题建模结果
以19个主题的前9个高频词为代表,依据主题词汇进行语义分析和主题内容归纳,生成主题标签,19个主题的关键词和主题标记结果见表3。依据表2观测概率矩阵,参考王海丽对在线学习行为的分类,将行为与主题进行对应。会话行为模型见表4。
(二)基于HMM的学习行为转移概率矩阵
HMM 计算不同行为间的转移概率,结果见表5。从整体来看,行为间转移的概率较小,基本维持状态稳定。尽管B1向其他行为转移的概率很小,但仍可能向B4转移;B2也以一定的概率转移到B4;说明经过信息查阅和信息加工后,小组会进入协作交互阶段。B3和B4向B5转移的可能性较大,目的指向问题解决。B5向B6和B3转移的概率较大。B6以一定的概率转移到B5、B4、B3。在行为状态中,处于低层次的行为(B1,B2,B3,B4,B5)以一定的概率向高层次的行为转变,而高层次的行为(B6)会随着时间的变化部分转移到低层行为(B5,B4等),这些都体现了学习者会话行为的过程和规律。
(三)不同绩效组学生的学习行为转移特征分析
对小组成员的最终成绩求均值,确定高绩效组和低绩效组。分析高绩效组和低绩效组的行为转移概率矩阵,并绘制行为转移图,结果如图1所示。在图中,箭头指向转移的行为,数值为转移的概率,概率越大箭头越粗。
高绩效组的B1信息查阅行为主要转移到B1信息查阅行为,部分会转移到B2信息加工行为,而低绩效组B1则以0.94的概率转到B6信息评价行为。高绩效组中,B2主要是向B3转移,部分还会向B6转移,而低绩效组中,B2主要是向B3和B5转移。高绩效组中,B3主要向B4协作交互和B5问题解决转移,而低绩效组中,B3会以较大概率向B1和B3转移。B4协作交互中,高绩效组以0.73的概率会保持此状态,以0.27的概率向B2信息加工转移,低绩效组则以0.91的概率保持此状态,向信息查阅和信息加工转移的概率很小。高绩效组以0.75的概率停留在问题解决行为,仍有0.16和0.09的概率向B2和B1转移,而在低绩效组中,B5完全转移到B2信息加工行为。在B6信息评价行为中,高绩效组会以0.83的概率维持,另外分别以0.08和0.09的概率转向B2信息加工和B4
协作交互转移。低绩效组中,B6会以0.69的概率转移到B1信息查阅,以0.31的概率转移到B5问题解决。
(四)学习行为与学习成绩的关系
1. 单个行为与学习成绩的关系
(1)相关分析
采用Spearman相关分析法探讨学习行为和学习成绩的关系。结果表明,在0.01水平上,六种行为均与学习者成绩相关:B1(r=0.480)、B2(r=0.405)、B3(r=0.402)、B4(r=0.444)、B5(r=0.336)、B6(r=0.429)。
(2)回归分析
回归分析用于确定学习行为对学习成绩的影响大小及方向。对64名学生的行为数据与学习成绩进行中心化处理,然后进行回归分析。结果见表6。
从表6可以看出,B1对学习成绩具有正向的影响作用。B1信息查阅体现了学习者尝试对知识进行理解和把握,从而提升教学设计和教学课件的质量。
(3)高低绩效组学生学习行为频数的差异分析
采用6(行为)×2(绩效组)交叉表卡方检验,分析高、低绩效组中六种行为的频数差异,结果见表7。从行为的总数看,高绩效组学生的行为频数明显高于低绩效组学生。行为类别中与学习成绩成正相关的信息查阅行为,高绩效组频数明显高于低绩效组。高绩效组中协作交互行为占比最高,体现了广泛的协作。此外,高绩效组的信息评价行为也较多。在低绩效组中,问题解决行为的频数最高,其次是信息发布行为,而协作交互行为较少,在体现高阶认知的信息评价行为方面则最少。
2. 行为序列与学习成绩的关系
(1)相关分析
将一个行为之后紧接着出现另一种行为称为行为序列,如B1B2编码表示B1行为之后紧接着出现B2行为。本研究利用SPSS21.0对六种行为所产生的36个行为序列与学习成绩进行相关分析。结果表明,行为序列总频次和学习成绩有较高的正相关性(r=0.522,p<0.001),这与李爽的结果相一致。相关分析结果表明,在0.01水平上与学习成绩相关的行为序列有:B4B6(r=0.412)、B4B5(r=0.410)、B5B1(r=0.408)、B2B4(r=0.407)、B2B3(r=0.403)、B5B4(r=0.391)、B1B1(r=0.386)、B4B1(r=0.378)、B1B5(r=0.375)、B4B4(r=0.360)、B6B5(r=0.359)、B2B1(r=0.347)、B6B1(r=0.342)、B1B6(r=0.341)、B5B3(r=0.324)。在0.05水平上与学习成绩相关的行为序列有:B6B4(r=0.403)、B6B3(r=0.395)、B3B1(r=0.361)、B6B6(r=0.344)、B3B6(r=0.336)、B4B3(r=0.336)、B4B2(r=0.306)、B3B3(r=0.303)、B5B6(r=0.293)、B2B2(r=0.283)、B5B5(r=0.277)、B3B5(r=0.263)、B1B2(r=0.258)、B1B3(r=0.247)。但在行为序列对学习成绩的回归分析中,单个行为序列的系数都没有达到显著性。
(2)高低绩效组学生学习行为序列频数的卡方检验
对高绩效组和低绩效组的行为序列频数进行卡方检验。高低绩效组行为序列分布具有显著性差异(χ2=73.718,p=0.04)。
五、讨 论
高绩效组在课程的学习行为转移上体现出渐进型和平滑型。高绩效组的学习者通过查阅相关资料更深入地理解和内化新知识,之后通过分析比較、组织整理完成信息加工。此外,高绩效组的学习者的低阶行为表现较多,信息查阅行为停留概率较高,问题解决和信息评价行为停留的概率也较大,这表明高绩效组学生对知识有着更好的理解。低绩效组的学习行为转移则具有非线性和突变性。例如从信息查阅直接转移到信息评价,从问题解决直接转移到信息加工等。这可能是由于学习者只注重完成学习任务而不注重知识的整合与应用。
相关分析和回归分析的结果表明六种行为均与学习成绩存在相关性,且信息查阅行为对学习成绩具有正向影响。因此有必要引导学生针对具体问题查找相关的知识信息,从而去解决问题。在行为序列方面,在0.01水平上与学习成绩相关的学习行为序列有15个,并且高绩效组的这些行为序列的频次明显高于低绩效组。卡方检验的结果表明高低绩效组在学习行为和学习行为序列上存在着显著差异。高绩效组学生的主动性比较强,小组每位成员能够很好地参与到协作学习中。高绩效组的学生个体先进行新知识的内化,随着任务的推进,每位成员能够更深程度地理解知识,在协作学习的过程中较多的协作交互和信息评价行为能够触发学习者的高阶认知。相关研究表明,高绩效组在学习过程中对信息的有效处理以及表现出的综合认知思维模式更有助于其取得学业上的成功。因此,在协作学习过程中,教师要及时干预,在教学设计和教学课件制作上针对性地提供帮助,从而促进学生高阶思维的发展。
六、结论和展望
(一)数据驱动的在线学习分析方法
相较以往研究关注可被观测的、反映学生学习投入的行为数据相比,联合LDA和HMM对会话行为建模具有一定的代表性,为分析学习者的内隐学习行为提供了一个新的视角,它能更加细致反映学习者的学习状态,更深层次发现学生的学习规律,促进个性化教学的实现。结合自然语言处理技术和协作学习理论实现对学习者内隐学习状态的自动分析和评估,有助于大规模在线学习行为的分析,并提供适应性支持服务。
(二)帮助学习者进行监控与调节,促进高阶思维发展
学习活动具有复杂性,自我调节和共享调节是协作学习成功的关键。高绩效组的学生在会话行为转变过程中具有渐进性,在学习过程中能够适应性地进行自我监控与相互调节。教师在教学活动中可以制定针对性的教学干预策略帮助低绩效组学生实现监控与调节。例如,教师可以引导学生观察和模仿更强的小组来提高自身成绩。
在线协作学习中的言语活动能够促进学习者的高阶思维,进而帮助学习者获取高阶知识并进行深度学习。教师为学生提供问题引导,鼓励学生在小组讨论时从多视角出发对问题进行互动分析,在冲突解释中实现对知识的建构与协商,培养学习者的高阶思维。此外,积极关注课程材料的学生会有更多的学习收益,学习效率更高。因此要注重学习者的信息查阅行为,引导小组在协作交互过程中进行问题解决和信息评价。成绩高的学生在课程中具有主动性,成绩低的学生学习过程中表现不够积极,且对课程内容的关注不够,教师可以适当给予一定的压力以提高其认知深度。
(三)不足与展望
本研究也存在着一些不足。首先,在进行LDA主题建模时,一些虽具有代表意义但频率很小的词汇及词汇之间的语义关联被忽略。其次,采用的SPOC论坛功能有限,不能获得学生学习每个部分知识的时间,比如观看视频的次数和时间,以及学生在更细微层次上的操作。最后,我们只考虑了“信息技术教学应用”这一门课程讨论的数据,研究结果的一般化受到限制。未来研究将从时间维度,即在课程学习的不同阶段分析学习者的行为转移情况,同时结合多模态数据,例如结合文本数据与语音数据,实现对会话行为的更全面、准确的理解。
[参考文献]
[1] 左明章,赵蓉,王志锋,李香勇,徐燕丽. 基于论坛文本的互动话语分析模式构建与实践[J]. 电化教育研究,2018,39(9):51-58.
[2] MESSICK S. The nature of cognitive styles: problems and promise in educational practice[J].Educational psychologist,1984,19(2):59-74.
[3] 何皓怡,刘清堂,吴林静,邓伟,郝怡雪.教师工作坊中学员话题挖掘方法及应用[J].中国电化教育,2018(10):79-86.
[4] 刘智,张文静,孙建文,刘三女牙,彭晛,张浩. 云课堂论坛中的学习者互动话语行为分析研究[J].电化教育研究,2016(9):95-102.
[5] HUANG J, PENG M, WANG H, et al. A probabilistic method for emerging topic tracking in microblog stream[J]. World wide web-internet & web information systems,2017,20(2):325-350.
[关键词] LDA主题模型; 隐马可夫模型; 学习行为; 学习绩效
[中图分类号] G434 [文献标志码] A
[作者简介] 张思(1983—),男,湖南长沙人。副教授,博士,主要从事计算机支持的协作学习与学习分析技术研究。E-mail:[email protected]。杨海茹为通讯作者,E-mail:[email protected]。
一、引 言
教育大数据在教育的发展与变革中正起着颠覆性的作用,从海量的教育信息中发现规律、诊断问题以及准确预测具有重要价值。在线教学中学生通过文本进行交流,学习平台上大量的非结构性文本数据是学生内隐行为的外化,文本数据往往更能够反映学习者的认知、学习动机、情感态度和学习体验[1]。不同认知水平的学习者其认知模式不同,在信息的加工与处理、接受学习的成效上都有所不同[2]。利用大数据技术对文本数据进行挖掘和分析可以得出与学习者学习状况相关的行为、认知等信息,同时能够对教学中的问题和现象进行解释。利用文本挖掘开展学习分析有助于教师进行个性化学习设计和教学决策,从而优化教与学,但仅仅通过分析学习者在任务上的投入时间和精力并不能细致判别学习者的投入程度,而通过细粒度的学习行为序列挖掘更能体现学习者的认知过程和行为轨迹。
本研究以学习者发布在SPOC论坛中的会话文本数据为研究对象进行数据挖掘,对文本数据进行主题建模及行为转移概率分析,并探索行为序列和学习成绩的关系,目的是厘清影响在线学习绩效的关键因素,提升在线学习质量。
二、文献综述
(一)学习行为识别与建模
1. LDA主题分析
在自然语言处理领域,主题模型广泛应用于文本聚类和分类[3]、文本情感分析[4]、话题的检测与演变[5]等。潜在狄利克雷分布(Latent Dirichlet Allocation,LDA)是一种文档主题生成模型,由Blei等人首先提出,其包含了文档、主题和词三层结构,是一个降低文本表示维度的三层贝叶斯概率模型,广泛应用于语义挖掘领域。LDA非监督模型能够得出主题分布,通过计算相似度进行聚类,在计算准确度和聚类效果上优势明显。
2. HMM建模
隐马尔可夫模型(Hidden Markov Model,HMM)是一种概率统计模型,由Baum等人提出,能够应用在多种领域中。HMM模型包含观察层和隐藏层,可以用五元组λ=(V,Q,π,A,B)进行表示,在五元组中,可观测值的序列集合是V,隐状态序列集合是Q,初始状态转移向量是π,状态转移概率的矩阵是A,生成的观测概率矩阵是B。隐马尔可夫模型可用于解决评估、学习和解码三类问题,并识别出隐状态之间的转移概率。同时,通过隐藏状态对数据结构的潜在变化进行表示,HMM能够更好适应和解释模型。隐马尔可夫模型在语言识别、词性标注等方面得到了广泛应用,是一种重要的统计模型。在线学习中,通过HMM模型可以识别不同学习群体的交互活动序列。
(二)数据驱动的学习行为建模
学习行为是学习者为了获得某种学习结果,在动机的指引下与周围环境双向交互活动的总和。在SPOC论坛中,学习者利用信息技术在丰富的学习环境中进行沟通交流,开展自主与协作学习的活动总和称为网络学习行为,也称在线学习行为。在学习行为分类上,彭文辉等将网络学习行为分为低级、中级和高级三个层次,并将在线学习行为分为收集信息、加工整理信息、发布信息、交流信息和使用信息五类。庄科君将网络学习行为分为操作行为、信息交互行为、意义建构行为和问题解决行为。王海丽对网络学习行为进行划分并构建了六层模型,从底层至上层依次为信息查阅行为、信息加工行为、信息发布行为、信息交互行为、问题解决行为和信息评价行为。相关研究从理论视角探讨了在线学习行为的分类方法,在线学习行为分类和标记依赖人工方法解决问题,缺乏从底层数据出发的会话行为自动建模方法与技术。对于在线教育的分析和干预而言,需要精准、可复制、具备较强通用性和解释力的模型,但适配的学习分析技术亟待出现。
(三)学习行为与学习成效的关系研究
在线学习行为与学习成效密切相关,是预测学习成效的重要指标,分析学习者的在线学习行为能够促进学习者的有意义和有效学习。研究表明学习者发布的讨论数量与其在线课程的学习成效具有显著的关系,通过探索观看视频次数、提交测验次数、发帖与回帖次数等行为特征与学习成绩间的关系,可以预测学习者的学习成绩。Cerezo从学习者在六个不同任务中分别花费的时长出发,将学习者进行聚类和分类并比较不同类别间的差异。赵呈领从学习资源的视角出发,依据观看视频、浏览文档、发布讨论主题、阅读回复讨论和参考作业模板等网络学习行为的时长进行聚类,探究了在线学习者学习行为模式和学习成效之间的关系。江波等人利用虚拟仿真平台从学生的学习行为特征出发进行定量描述,得出九种行为中五种学习行为与学习成绩相关。相关研究较多探索了学习者外在行为表现与学习绩效的关系,而学习者内隐行为特征与学习绩效的关系则较少关注。随着人工智能与大数据技术的发展,学习者内隐行为特征的智能分析成为可能,结合学习者内隐行为特征探索学习行为与学习绩效的关系,其结果将更具准确性和可解释性。 三、研究设计
(一)研究情景、對象与数据源
研究对象为某师范院校的高年级本科生。数据来源于“信息技术教学应用”课程。课程采用协作学习的模式,师生共同探讨信息技术和课程教学深度融合的方法和技术。所有小组通过SPOC论坛进行讨论与交流。协作活动流程分为教学设计初稿、教学设计互评、教学设计修改与完善、教学课件初稿、教学课件互评、教学课件修改与完善六个阶段。本研究收集了学生于2020年2月至2020年7月在SPOC论坛中讨论的帖子。一共有64名学生,分为13个小组参与了课程的讨论和学习,并最终取得了成绩,平均分是86.81,标准差为3.605。SPOC论坛上共产生6616条讨论帖,处理和筛选后最终获得4928条讨论帖。
(二)数据的处理与分析
1. 确定最优主题数和主题的方法
数据获取字段包括学生个人信息、评论时间、评论文本和回复文本等。为产生理想的主题建模效果,筛选与课堂内容相关的帖子并控制帖子长度在4个字符以上。经过文本数据分词、去停用词、过滤无关字符等操作,并利用Python语言的gensim库计算困惑度(Perplexity)。当主题之间相似度最小时,主题建模最优,困惑度值可用于确定最佳主题数。困惑度值越小,模型的效果越好。困惑度计算如公式(1)所示。
Perplexity(D)为数据集的困惑度,式中M表示一共M篇文档,Nd表示语料库中第d个文档所包含的词数,p表示文档d中的词的生成概率。结果表明当主题数为19时,困惑度数值最小,因而选择19作为最佳主题数。确定主题数后利用Python语言的gensim库实现LDA主题抽取,形成文档—主题和主题—词的概率分布。
2. 隐马尔可夫模型方法
HMM模型既能发现隐状态和观测值之间的对应关系,也能发现状态间的概率转移关系。通过训练,HMM可以自动构造和识别模型,从而得出参数。首先要确定隐状态的个数。研究使用LDA主题建模结果,通过在Matlab中输入不同的隐状态数值进行HMM训练,依据BIC值确定最终隐状态的个数。BIC的计算方法如公式(2)所示。
其中L是模型似然函数值,P是自由参数的个数,N是数据点的数量。BIC的数值最小时,模型结果最优,结果见表1。当状态数取值为6时,BIC的值最小,因此设置隐状态数即学习行为分类数为6。将隐状态数6,主题数19输入到HMM中生成了转移和观测概率矩阵,见表2。转移矩阵表示行为之间的转移概率情况,而观测概率矩阵则表示在y的情况下,输出为x的概率。通过观测概率矩阵找出每个主题在行为(B1-B6)中对应的最大概率,从而确定主题所对应的学习行为分类。
四、研究结果与分析
(一)主题建模结果
以19个主题的前9个高频词为代表,依据主题词汇进行语义分析和主题内容归纳,生成主题标签,19个主题的关键词和主题标记结果见表3。依据表2观测概率矩阵,参考王海丽对在线学习行为的分类,将行为与主题进行对应。会话行为模型见表4。
(二)基于HMM的学习行为转移概率矩阵
HMM 计算不同行为间的转移概率,结果见表5。从整体来看,行为间转移的概率较小,基本维持状态稳定。尽管B1向其他行为转移的概率很小,但仍可能向B4转移;B2也以一定的概率转移到B4;说明经过信息查阅和信息加工后,小组会进入协作交互阶段。B3和B4向B5转移的可能性较大,目的指向问题解决。B5向B6和B3转移的概率较大。B6以一定的概率转移到B5、B4、B3。在行为状态中,处于低层次的行为(B1,B2,B3,B4,B5)以一定的概率向高层次的行为转变,而高层次的行为(B6)会随着时间的变化部分转移到低层行为(B5,B4等),这些都体现了学习者会话行为的过程和规律。
(三)不同绩效组学生的学习行为转移特征分析
对小组成员的最终成绩求均值,确定高绩效组和低绩效组。分析高绩效组和低绩效组的行为转移概率矩阵,并绘制行为转移图,结果如图1所示。在图中,箭头指向转移的行为,数值为转移的概率,概率越大箭头越粗。
高绩效组的B1信息查阅行为主要转移到B1信息查阅行为,部分会转移到B2信息加工行为,而低绩效组B1则以0.94的概率转到B6信息评价行为。高绩效组中,B2主要是向B3转移,部分还会向B6转移,而低绩效组中,B2主要是向B3和B5转移。高绩效组中,B3主要向B4协作交互和B5问题解决转移,而低绩效组中,B3会以较大概率向B1和B3转移。B4协作交互中,高绩效组以0.73的概率会保持此状态,以0.27的概率向B2信息加工转移,低绩效组则以0.91的概率保持此状态,向信息查阅和信息加工转移的概率很小。高绩效组以0.75的概率停留在问题解决行为,仍有0.16和0.09的概率向B2和B1转移,而在低绩效组中,B5完全转移到B2信息加工行为。在B6信息评价行为中,高绩效组会以0.83的概率维持,另外分别以0.08和0.09的概率转向B2信息加工和B4
协作交互转移。低绩效组中,B6会以0.69的概率转移到B1信息查阅,以0.31的概率转移到B5问题解决。
(四)学习行为与学习成绩的关系
1. 单个行为与学习成绩的关系
(1)相关分析
采用Spearman相关分析法探讨学习行为和学习成绩的关系。结果表明,在0.01水平上,六种行为均与学习者成绩相关:B1(r=0.480)、B2(r=0.405)、B3(r=0.402)、B4(r=0.444)、B5(r=0.336)、B6(r=0.429)。
(2)回归分析
回归分析用于确定学习行为对学习成绩的影响大小及方向。对64名学生的行为数据与学习成绩进行中心化处理,然后进行回归分析。结果见表6。
从表6可以看出,B1对学习成绩具有正向的影响作用。B1信息查阅体现了学习者尝试对知识进行理解和把握,从而提升教学设计和教学课件的质量。
(3)高低绩效组学生学习行为频数的差异分析
采用6(行为)×2(绩效组)交叉表卡方检验,分析高、低绩效组中六种行为的频数差异,结果见表7。从行为的总数看,高绩效组学生的行为频数明显高于低绩效组学生。行为类别中与学习成绩成正相关的信息查阅行为,高绩效组频数明显高于低绩效组。高绩效组中协作交互行为占比最高,体现了广泛的协作。此外,高绩效组的信息评价行为也较多。在低绩效组中,问题解决行为的频数最高,其次是信息发布行为,而协作交互行为较少,在体现高阶认知的信息评价行为方面则最少。
2. 行为序列与学习成绩的关系
(1)相关分析
将一个行为之后紧接着出现另一种行为称为行为序列,如B1B2编码表示B1行为之后紧接着出现B2行为。本研究利用SPSS21.0对六种行为所产生的36个行为序列与学习成绩进行相关分析。结果表明,行为序列总频次和学习成绩有较高的正相关性(r=0.522,p<0.001),这与李爽的结果相一致。相关分析结果表明,在0.01水平上与学习成绩相关的行为序列有:B4B6(r=0.412)、B4B5(r=0.410)、B5B1(r=0.408)、B2B4(r=0.407)、B2B3(r=0.403)、B5B4(r=0.391)、B1B1(r=0.386)、B4B1(r=0.378)、B1B5(r=0.375)、B4B4(r=0.360)、B6B5(r=0.359)、B2B1(r=0.347)、B6B1(r=0.342)、B1B6(r=0.341)、B5B3(r=0.324)。在0.05水平上与学习成绩相关的行为序列有:B6B4(r=0.403)、B6B3(r=0.395)、B3B1(r=0.361)、B6B6(r=0.344)、B3B6(r=0.336)、B4B3(r=0.336)、B4B2(r=0.306)、B3B3(r=0.303)、B5B6(r=0.293)、B2B2(r=0.283)、B5B5(r=0.277)、B3B5(r=0.263)、B1B2(r=0.258)、B1B3(r=0.247)。但在行为序列对学习成绩的回归分析中,单个行为序列的系数都没有达到显著性。
(2)高低绩效组学生学习行为序列频数的卡方检验
对高绩效组和低绩效组的行为序列频数进行卡方检验。高低绩效组行为序列分布具有显著性差异(χ2=73.718,p=0.04)。
五、讨 论
高绩效组在课程的学习行为转移上体现出渐进型和平滑型。高绩效组的学习者通过查阅相关资料更深入地理解和内化新知识,之后通过分析比較、组织整理完成信息加工。此外,高绩效组的学习者的低阶行为表现较多,信息查阅行为停留概率较高,问题解决和信息评价行为停留的概率也较大,这表明高绩效组学生对知识有着更好的理解。低绩效组的学习行为转移则具有非线性和突变性。例如从信息查阅直接转移到信息评价,从问题解决直接转移到信息加工等。这可能是由于学习者只注重完成学习任务而不注重知识的整合与应用。
相关分析和回归分析的结果表明六种行为均与学习成绩存在相关性,且信息查阅行为对学习成绩具有正向影响。因此有必要引导学生针对具体问题查找相关的知识信息,从而去解决问题。在行为序列方面,在0.01水平上与学习成绩相关的学习行为序列有15个,并且高绩效组的这些行为序列的频次明显高于低绩效组。卡方检验的结果表明高低绩效组在学习行为和学习行为序列上存在着显著差异。高绩效组学生的主动性比较强,小组每位成员能够很好地参与到协作学习中。高绩效组的学生个体先进行新知识的内化,随着任务的推进,每位成员能够更深程度地理解知识,在协作学习的过程中较多的协作交互和信息评价行为能够触发学习者的高阶认知。相关研究表明,高绩效组在学习过程中对信息的有效处理以及表现出的综合认知思维模式更有助于其取得学业上的成功。因此,在协作学习过程中,教师要及时干预,在教学设计和教学课件制作上针对性地提供帮助,从而促进学生高阶思维的发展。
六、结论和展望
(一)数据驱动的在线学习分析方法
相较以往研究关注可被观测的、反映学生学习投入的行为数据相比,联合LDA和HMM对会话行为建模具有一定的代表性,为分析学习者的内隐学习行为提供了一个新的视角,它能更加细致反映学习者的学习状态,更深层次发现学生的学习规律,促进个性化教学的实现。结合自然语言处理技术和协作学习理论实现对学习者内隐学习状态的自动分析和评估,有助于大规模在线学习行为的分析,并提供适应性支持服务。
(二)帮助学习者进行监控与调节,促进高阶思维发展
学习活动具有复杂性,自我调节和共享调节是协作学习成功的关键。高绩效组的学生在会话行为转变过程中具有渐进性,在学习过程中能够适应性地进行自我监控与相互调节。教师在教学活动中可以制定针对性的教学干预策略帮助低绩效组学生实现监控与调节。例如,教师可以引导学生观察和模仿更强的小组来提高自身成绩。
在线协作学习中的言语活动能够促进学习者的高阶思维,进而帮助学习者获取高阶知识并进行深度学习。教师为学生提供问题引导,鼓励学生在小组讨论时从多视角出发对问题进行互动分析,在冲突解释中实现对知识的建构与协商,培养学习者的高阶思维。此外,积极关注课程材料的学生会有更多的学习收益,学习效率更高。因此要注重学习者的信息查阅行为,引导小组在协作交互过程中进行问题解决和信息评价。成绩高的学生在课程中具有主动性,成绩低的学生学习过程中表现不够积极,且对课程内容的关注不够,教师可以适当给予一定的压力以提高其认知深度。
(三)不足与展望
本研究也存在着一些不足。首先,在进行LDA主题建模时,一些虽具有代表意义但频率很小的词汇及词汇之间的语义关联被忽略。其次,采用的SPOC论坛功能有限,不能获得学生学习每个部分知识的时间,比如观看视频的次数和时间,以及学生在更细微层次上的操作。最后,我们只考虑了“信息技术教学应用”这一门课程讨论的数据,研究结果的一般化受到限制。未来研究将从时间维度,即在课程学习的不同阶段分析学习者的行为转移情况,同时结合多模态数据,例如结合文本数据与语音数据,实现对会话行为的更全面、准确的理解。
[参考文献]
[1] 左明章,赵蓉,王志锋,李香勇,徐燕丽. 基于论坛文本的互动话语分析模式构建与实践[J]. 电化教育研究,2018,39(9):51-58.
[2] MESSICK S. The nature of cognitive styles: problems and promise in educational practice[J].Educational psychologist,1984,19(2):59-74.
[3] 何皓怡,刘清堂,吴林静,邓伟,郝怡雪.教师工作坊中学员话题挖掘方法及应用[J].中国电化教育,2018(10):79-86.
[4] 刘智,张文静,孙建文,刘三女牙,彭晛,张浩. 云课堂论坛中的学习者互动话语行为分析研究[J].电化教育研究,2016(9):95-102.
[5] HUANG J, PENG M, WANG H, et al. A probabilistic method for emerging topic tracking in microblog stream[J]. World wide web-internet & web information systems,2017,20(2):325-350.