MOOC评论紧急程度分类和主题挖掘算法研究

来源 :西北大学 | 被引量 : 0次 | 上传用户:hukuikui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大规模在线开放课程(Massive Open Online Courses,MOOC)的论坛是教师理解和干预学习者学习活动的重要工具,论坛中存在着大量学习者的学习过程和体验数据。由于教师和管理人员人数较少,评论信息量过大导致其中真正有价值的信息极易被忽略。MOOC课程评论紧急程度分类可以帮助教师及时跟进论坛评论,找出需要回复的学习者帖子并针对性的进行回复,及时帮助学习者解决问题;对学生“紧急”帖子进行主题挖掘,可以帮助教师了解学习者在学习过程中产生问题的原因和学习者的课程感受,对完善MOOC教学平台,改善课程质量具有重要的研究意义。本文以MOOC评论文本为研究对象,主要研究内容如下:(1)针对现有词嵌入层语义信息表达不准确,无法解决单词“一词多义”的问题,提出了基于循环卷积神经网络的MOOC评论紧急程度分类模型(BLNN)。该模型使用双向长短时记忆网络从正反两个语法依赖方向获得各词语的上下文信息,并将其与单词本身信息进行合并,以获得具有真实语义信息的单词表示。模型在斯坦福MOOC评论数据集上的三组实验中分别取得了优于现有经典分布式向量表示方法2.2%,2.1%和2.6%的结果,证明了该模型的先进性。(2)针对BLNN模型无法学习MOOC评论文本中的拼写错误和特殊符号等信息以及现有模型对句子的语义信息和结构信息学习能力有限的问题,提出了一种基于注意力机制的字符-单词混合神经网络(ATHNN)。该模型通过字符嵌入和卷积神经网络(Convolutional Neural Networks,CNN)提取评论文本中的拼写错误和特殊符号等信息;与此同时,模型中的CNN-GRU模块可以同时学习句子的语义信息和结构信息。该模型在MOOC评论紧急程度分类任务中分别取得了92.2%、91.6%和89.2%的F1值,优于现有所有先进的模型。(3)针对概率主题模型缺少文本语义信息以及单独的基于词向量的深度学习模型忽略文本的潜在主题信息的问题,提出了一种主题模型和神经网络相结合的MOOC评论主题挖掘模型(DCSM)。该模型通过LDA提取评论文本中的主题关键词,再使用CNN提取主题关键词矩阵中的主题特征,并将其与LSTM模型学习到的文本语义特征进行融合,以获得同时包含主题特征和语义特征的文本表示。本模型取得了71.7%的F1值,该结果优于目前先进模型2.5%。本文通过对MOOC评论紧急程度分类和主题挖掘算法进行了研究,提高了MOOC评论分类和主题挖掘的准确性,帮助教师更好地管理MOOC论坛,提高教师的工作效率。
其他文献
随着高性能计算设备的不断升级,大数据时代到来,人工智能领域获得了长足发展,其中深度学习技术已经成为当前的研究热点并获得了广泛的应用,已经成为计算机视觉领域主流算法。
立体匹配是计算机视觉领域中的核心问题之一,它主要研究如何从不同视角的两幅图像中获取像素间的对应关系,即视差。近年来,立体匹配的研究取得了巨大的发展和进步,立体匹配技
金属有机框架(metal-organic frameworks,MOFs)是由金属离子或金属簇与有机配体形成的具有规则结构的多孔晶态材料,广泛用于气体吸附和分离、化学传感、光学材料以及多相催化等
随着车联网(Internet of Vehicles,Io V)技术的普及,车辆的数量和车辆产生的数据量日益增加,由于车辆自身的计算资源和电池容量存在上限,在车辆本地执行任务无法满足低时延和
森林分布极为广泛并且地形复杂多样,以传统方法对森林结构参数进行调查,需要耗费大量的人力、物力和财力。无人机和计算机视觉技术的快速发展,使得快捷、较低成本、较高精度
在大数据牵引的信息时代,随着军事信息获取和分析手段的多样化和精细化,虽然为作战人员带来了磅礴的信息资源,但也造成了严重的信息负担。如何快速准确的从海量信息中抽取出
本英汉翻译项目包括两部分。第一部分是翻译研究报告,第二部分是选文及其译文。翻译项目的原文选自哥伦比亚州立大学哥伦布分校语言和文学系的助理教授诺琳·格鲁弗·莱普所著的《边界以西:美国西部边疆多元文化文学》一书中的第三章“美国边疆华裔中存在的新娘买卖和被迫单身现象”。本章讲述了早期中国移民引发美国恐慌,美国利用移民法和多种手段来抑制中国人口的增加,其中包括买卖新娘、禁止组建家庭、限制入境等。根据皮特·
近年来,随着互联网的普及和社交网站的发展,新浪微博作为一种主流的媒体形式和交流平台受到广泛关注,在用户量增长的同时,一大批机器用户也随之涌现,它们耗费系统资源、影响平台效率、混淆网民视听,尤其是其中的恶性用户大量发布虚假信息、散布谣言、误导网民舆论,严重污染网络环境,危害网民利益。本文以新浪微博用户为研究对象,旨在探索识别微博一类典型虚假用户——机器用户的有效方法。本文数据来源为新浪微博数据仓库,
随着移动通信技术的飞速发展,移动终端设备也随之剧增,导致通信系统能源损耗问题日益凸显。尤其是随着第五代移动通信技术的发展,大规模多输入多输出(MIMO)系统将成为下一代
气动测量具有非线性、高灵敏度、高精度且不受工件材料和形状等因素的影响,因而在工业生产中得到普遍应用和不断发展。但是传统的背压式气动量仪精度高(可以达到1μm以内),量