论文部分内容阅读
大规模在线开放课程(Massive Open Online Courses,MOOC)的论坛是教师理解和干预学习者学习活动的重要工具,论坛中存在着大量学习者的学习过程和体验数据。由于教师和管理人员人数较少,评论信息量过大导致其中真正有价值的信息极易被忽略。MOOC课程评论紧急程度分类可以帮助教师及时跟进论坛评论,找出需要回复的学习者帖子并针对性的进行回复,及时帮助学习者解决问题;对学生“紧急”帖子进行主题挖掘,可以帮助教师了解学习者在学习过程中产生问题的原因和学习者的课程感受,对完善MOOC教学平台,改善课程质量具有重要的研究意义。本文以MOOC评论文本为研究对象,主要研究内容如下:(1)针对现有词嵌入层语义信息表达不准确,无法解决单词“一词多义”的问题,提出了基于循环卷积神经网络的MOOC评论紧急程度分类模型(BLNN)。该模型使用双向长短时记忆网络从正反两个语法依赖方向获得各词语的上下文信息,并将其与单词本身信息进行合并,以获得具有真实语义信息的单词表示。模型在斯坦福MOOC评论数据集上的三组实验中分别取得了优于现有经典分布式向量表示方法2.2%,2.1%和2.6%的结果,证明了该模型的先进性。(2)针对BLNN模型无法学习MOOC评论文本中的拼写错误和特殊符号等信息以及现有模型对句子的语义信息和结构信息学习能力有限的问题,提出了一种基于注意力机制的字符-单词混合神经网络(ATHNN)。该模型通过字符嵌入和卷积神经网络(Convolutional Neural Networks,CNN)提取评论文本中的拼写错误和特殊符号等信息;与此同时,模型中的CNN-GRU模块可以同时学习句子的语义信息和结构信息。该模型在MOOC评论紧急程度分类任务中分别取得了92.2%、91.6%和89.2%的F1值,优于现有所有先进的模型。(3)针对概率主题模型缺少文本语义信息以及单独的基于词向量的深度学习模型忽略文本的潜在主题信息的问题,提出了一种主题模型和神经网络相结合的MOOC评论主题挖掘模型(DCSM)。该模型通过LDA提取评论文本中的主题关键词,再使用CNN提取主题关键词矩阵中的主题特征,并将其与LSTM模型学习到的文本语义特征进行融合,以获得同时包含主题特征和语义特征的文本表示。本模型取得了71.7%的F1值,该结果优于目前先进模型2.5%。本文通过对MOOC评论紧急程度分类和主题挖掘算法进行了研究,提高了MOOC评论分类和主题挖掘的准确性,帮助教师更好地管理MOOC论坛,提高教师的工作效率。