论文部分内容阅读
随着近些年计算机在各行各业的普及应用,我们生成和收集数据的能力在迅速提高,因此人们经常说我们处于信息爆炸的时代,但是面对庞杂的数据,我们经常无法能够直接准确地获取我们真正想要的数据。为了能够从大量的数据中发现有价值的信息和规律,数据挖掘(Data Mining)作为数据库应用领域的一个前沿学科应运而生。
Internet的迅速发展,使得world wide web已经深入到社会生活的方方面面。使得数据从单机存储方式转化成了网络分布式存储形式。一方面,Internet上存储的大量数据包括三种类型:一是文挡、图形、图像、音频等文本和超文本数据,二是描述网络站点结构的数据,三是记录网络用户访问信息的数据。因此网络数据表现出其多样性的特点。另外,Internet本身也具有非结构化、动态性、不完整性和混沌等特点,体现了巨大的、分布式的和多维的形式;另一方面,Internet上大约有近亿个工作站,用户有充分的自由,可以随意链接到Internet上的任意站点上,而且用户拥有不同的背景、不同的兴趣和使用目的。由此,Web的用户群体也表现出多样性的特点。Web目前已经发展成为拥有十亿页面、蕴涵着具有巨大潜在价值知识的分布式信息空间。因为Web数据的数量更加庞大、结构更加复杂,为数据挖掘研究提供了丰富的资源的同时也提出了新的挑战。所以Web数据挖掘便成了数据挖掘领域中新的课题。
近几年,为了适应“全民教育”的时代需要,网络教育成为了现代高等教育的一个新的产物。到目前为止已经有70多所试点学校开展了现代远程高等教育,但是现在的网络教育大多还处于资源共享的状态,只是将传统课堂教育简单移植到网络上,教育系统模式单一,以系统自身为中心,没有充分考虑网络教育的教学特点和学生需求,更没有按照以学习者为中心的网络教育规律进行教学,学生只能被动地接受完全相同的教学内容,没有从根本上解决师生互动问题,从而没有真正体现出个性化教学的优势和网络自身的特点。
为了解决网络教育中存在的上述问题,体现以用户为中心,即以学生为中心的网络特点,发挥个性化教学的网络教育优势,使师生能够进行互动教学,更好的实现同一课程面对不同层次的学生。本文将Web数据挖掘应用到网络教育中去,试图通过对网络教学过程中学生访问站点时产生的网络日志文件进行挖掘,生成模式库。利用模式库来优化网络结构、为学生提供个性化教学和实现师生互动。
本文首先介绍了数据挖掘和Web数据挖掘的相关概念以及对不同类型数据的挖掘算法,然后构建了功能较为全面的网络教育个性化服务体系结构。该体系结构进行挖掘的数据源是记录学生访问站点的日志文件。另外,学生的基本信息数据库和历史学习成绩记录数据库为组合个性化学习内容作参考,对日志文件经过预处理后生成事务文件,再对事务文件进行Web数据挖掘生成模式库,模式库为组合个性化学习内容作指导,教学资源知识库为组合个性化学习内容提供原材料,经过一系列的处理后生成的数据有:个性化学习内容、学生学习成绩记录、对教师的评价信息和优化站点结构的建议。该体系结构试图提供的功能是:在学生使用自己的用户名登陆该教育网站时,服务器能够为该学生生成适合于他的个性化页面,包括符合该学生访问习惯的站点链接、适合该学生学习的课程及书籍推荐等;当学生请求在线考试或做课堂作业时,调度模块能够调度符合该学生学习程度的试卷和作业题;能够对教师教学水平进行评估和优化站点结构。该体系结构将Web挖掘技术应用到网络教育个性化服务中来,面对庞大的网络日志文件,使优化站点结构和提高个性化服务质量在理论上和技术上成为可能。
本文Web数据挖掘的处理过程是:首先将日志文件中的数据经过预处理放入原始数据库,需要对日志文件进行预处理的原因是日志文件是非结构化的数据,并且日志文件中存在一些对挖掘不起作用、甚至其干扰作用的数据。数据预处理包括的步骤有数据净化、用户识别、会话识别、Frame过滤、路径补充和事务识别等。数据预处理后,使用Web挖掘算法来发现频繁路径,即用户的访问模式,并将其放入模式数据库,再经过聚类和模式分析,形成知识数据库。服务器在不断被访问的过程中,自动更新Web知识数据库,提供相应的个性化教学服务,并生成对教师的评价信息和优化站点结构的建议。
本文在设计频繁路径挖掘算法时,对现有的Apriori算法在性能上进行了改进。针对Apriori算法中在计算C<,2>中的引用页面序列的支持度计数时扫描量随引用页面序列数成级数增长的问题,通过使用一个数组来标记事务数据库中相应事务是否被匹配过,在很大程度上减少了扫描事务数据库D中事务的个数,解决了Apriori中计算Cz的引用页面序列的支持计数时扫描量庞大的瓶颈问题,提高了由C<,2>生成L<,2>的速度。又采用对事务数据库进行修剪的方法压缩了事务数据库,这样可以提高此后每次的扫描速度。本文对Apriori算法和改进算法在效率上作了详细的比较,证明了改进算法远远优于Aptiori算法。
当然,由于时间问题和个人水平问题,该论文还存在一些不足,例如:网络日志文件增长迅速,需要定期删除,那么如何确定一个较合理的时间间隔;会话识别时,如何解决会话划分时存在的误差。