论文部分内容阅读
随着互联网的飞速发展,网络教育论坛逐渐成为一种教育资源平台并得到充实壮大,成为人们尤其是教师和学生日常交流、研究、学习中不可或缺的要素。网络教育论坛尤其是与专业方向密切相关的论坛上有大量交流思想、探讨学习和专业研究的帖子,这些帖子本身就是极好的教育资源,论坛对某个话题的深入广泛的讨论会使其成为热点话题而受到广泛关注。因帖子的数量庞大,手工统计分析网页上帖子已不能满足应用要求。Web数据挖掘技术的发展,使深入研究和分析教育论坛的帖子内容成为可能,为研究者提供了强大的技术支撑。利用Web数据挖掘技术研究教育论坛中有关专业研究学习方面的热点话题,并把研究结果反馈于教育教学活动,是对变革教育方式积极有益的探索,对加快教育现代化进程具有重要意义。文章主要利用Web数据挖掘技术对网络教育论坛上的内容展开研究。以北大中文论坛的中文信息处理版块为研究对象,挖掘论坛中的热点话题和话题领袖,从而对课堂教育教学提供补充和扩展,加快教育方式变革。文章主要完成了以下工作:(1)获取网页文本数据是Web数据挖掘的第一步,本研究实现了利用网络爬虫程序下载网页,使用DOM树和正则表达式解析网页以获得所需要的正文内容。在进行大规模网页采集、抽取时,对采集到的数据进行清理、筛选、转换,并将结果存入本地数据库中。(2)实现并改进正向最大匹配中文分词算法,使分词的粒度较大,便于划分出一些学科的专有名词。研究设计的中文分词词典能很好地支持本算法的实现。(3)编程实现了经典的K-means聚类挖掘算法。通过对论坛网页的聚类分析发现网络教育论坛中讨论的热点话题,通过判断和分析热点话题,就可把握话题的发展方向,了解教育论坛中人们研究、学习的主要方面,以此辅助教学。(4)根据挖掘结果,有针对性地关注热点话题、关注话题领袖引领的话题可以解决在专业方面反映突出的问题,进而可以利用好课堂内外两个平台。课堂教学是教育教学工作的重要部分,而通过网络教育论坛解决学生学习中遇到的问题是对教育方式变革积极有益的探索。