论文部分内容阅读
随着互联网技术的飞速发展,当今社会已经完全进入到一个信息爆炸的时代,人们日益增长的知识需求也已经超出传统教育模式所能满足的范围。如何在信息世界里充分利用信息资源,营造个性化学习环境,满足人们随时随地学习的需求,成了当务之急,而此时在线教育的应运而生,极大的满足了人们的需求。在线教育中的人物,课程,内容,平台等等构成因素所组成的网络我们称之为社会学习网络。但由于社会学习网络的仍处于发展初期,其中存在着各种各样的问题,例如退课率高,内容虽多但不能实现合理的分配等,其均会影响教学质量与用户体验。面对社会学习网络中存在的这些问题,利用数据挖掘技术进行退课预测与课程推荐显得十分必要。而当前的研究存在数据利用率不足,准确性不够,用户兴趣点挖掘较浅,推荐模式单一等问题。论文基于在线教育平台,利用数据分析与挖掘的技术,针对上述存在的问题,进行了深入的研究并提出了以下几点创新工作:1)将在社会学习网络中的视频作为主要的研究对象,针对数据利用率低的问题,我们将每个用户在网络中的视频点击行为进行深入理解,分析点击流结构,抽取点击流中的重要的数据维度,并将完整的点击流行为进行转化,形成我们所能处理与计算的结构化数据。2)在预测退课行为的时候,我们针对经典的朴素贝叶斯算法存在的特征独立问题,提出一种基于权重学习的朴素贝叶斯,将各个维度的特征赋予权重,而论文的创新在于构造损失函数,通过不断学习的方式求得一套更加拟合数据的权值,使其在预测性能上从60%的准确率提升到72%,同时也得到了各个维度的重要程度。3)为了更好的研究用户的兴趣点,为之推荐自己感兴趣的课程,论文不再是从用户的选课列表上去分析,而把目光转移到其在论坛中的表现。文章认为用户在论坛上所表达的观点会更直接的展现出自己的兴趣,因此论文以论坛内容为基础,利用机器学习,TF-IDF等技术抽取课程关键词。利用图论模型将关键词节点与用户节点建立连通图,从而更加合理并且直观的分析用户兴趣,使得课程的推荐更加契合用户的兴趣。上述三个方面的工作完成了对退课行为的预测以及个性化课程的推荐,虽然不能彻底解决社会学习网络中的高退课率,课程分配不合理等问题,但却为问题的及时发现提供了思路与方法,是十分有意义的。