Web数据挖掘研究及其在优化网络教育中的应用

来源 :中国地质大学(武汉) | 被引量 : 0次 | 上传用户:kuyedie222
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着近些年计算机在各行各业的普及应用,我们生成和收集数据的能力在迅速提高,因此人们经常说我们处于信息爆炸的时代,但是面对庞杂的数据,我们经常无法能够直接准确地获取我们真正想要的数据。为了能够从大量的数据中发现有价值的信息和规律,数据挖掘(Data Mining)作为数据库应用领域的一个前沿学科应运而生。 Internet的迅速发展,使得world wide web已经深入到社会生活的方方面面。使得数据从单机存储方式转化成了网络分布式存储形式。一方面,Internet上存储的大量数据包括三种类型:一是文挡、图形、图像、音频等文本和超文本数据,二是描述网络站点结构的数据,三是记录网络用户访问信息的数据。因此网络数据表现出其多样性的特点。另外,Internet本身也具有非结构化、动态性、不完整性和混沌等特点,体现了巨大的、分布式的和多维的形式;另一方面,Internet上大约有近亿个工作站,用户有充分的自由,可以随意链接到Internet上的任意站点上,而且用户拥有不同的背景、不同的兴趣和使用目的。由此,Web的用户群体也表现出多样性的特点。Web目前已经发展成为拥有十亿页面、蕴涵着具有巨大潜在价值知识的分布式信息空间。因为Web数据的数量更加庞大、结构更加复杂,为数据挖掘研究提供了丰富的资源的同时也提出了新的挑战。所以Web数据挖掘便成了数据挖掘领域中新的课题。 近几年,为了适应“全民教育”的时代需要,网络教育成为了现代高等教育的一个新的产物。到目前为止已经有70多所试点学校开展了现代远程高等教育,但是现在的网络教育大多还处于资源共享的状态,只是将传统课堂教育简单移植到网络上,教育系统模式单一,以系统自身为中心,没有充分考虑网络教育的教学特点和学生需求,更没有按照以学习者为中心的网络教育规律进行教学,学生只能被动地接受完全相同的教学内容,没有从根本上解决师生互动问题,从而没有真正体现出个性化教学的优势和网络自身的特点。 为了解决网络教育中存在的上述问题,体现以用户为中心,即以学生为中心的网络特点,发挥个性化教学的网络教育优势,使师生能够进行互动教学,更好的实现同一课程面对不同层次的学生。本文将Web数据挖掘应用到网络教育中去,试图通过对网络教学过程中学生访问站点时产生的网络日志文件进行挖掘,生成模式库。利用模式库来优化网络结构、为学生提供个性化教学和实现师生互动。 本文首先介绍了数据挖掘和Web数据挖掘的相关概念以及对不同类型数据的挖掘算法,然后构建了功能较为全面的网络教育个性化服务体系结构。该体系结构进行挖掘的数据源是记录学生访问站点的日志文件。另外,学生的基本信息数据库和历史学习成绩记录数据库为组合个性化学习内容作参考,对日志文件经过预处理后生成事务文件,再对事务文件进行Web数据挖掘生成模式库,模式库为组合个性化学习内容作指导,教学资源知识库为组合个性化学习内容提供原材料,经过一系列的处理后生成的数据有:个性化学习内容、学生学习成绩记录、对教师的评价信息和优化站点结构的建议。该体系结构试图提供的功能是:在学生使用自己的用户名登陆该教育网站时,服务器能够为该学生生成适合于他的个性化页面,包括符合该学生访问习惯的站点链接、适合该学生学习的课程及书籍推荐等;当学生请求在线考试或做课堂作业时,调度模块能够调度符合该学生学习程度的试卷和作业题;能够对教师教学水平进行评估和优化站点结构。该体系结构将Web挖掘技术应用到网络教育个性化服务中来,面对庞大的网络日志文件,使优化站点结构和提高个性化服务质量在理论上和技术上成为可能。 本文Web数据挖掘的处理过程是:首先将日志文件中的数据经过预处理放入原始数据库,需要对日志文件进行预处理的原因是日志文件是非结构化的数据,并且日志文件中存在一些对挖掘不起作用、甚至其干扰作用的数据。数据预处理包括的步骤有数据净化、用户识别、会话识别、Frame过滤、路径补充和事务识别等。数据预处理后,使用Web挖掘算法来发现频繁路径,即用户的访问模式,并将其放入模式数据库,再经过聚类和模式分析,形成知识数据库。服务器在不断被访问的过程中,自动更新Web知识数据库,提供相应的个性化教学服务,并生成对教师的评价信息和优化站点结构的建议。 本文在设计频繁路径挖掘算法时,对现有的Apriori算法在性能上进行了改进。针对Apriori算法中在计算C<,2>中的引用页面序列的支持度计数时扫描量随引用页面序列数成级数增长的问题,通过使用一个数组来标记事务数据库中相应事务是否被匹配过,在很大程度上减少了扫描事务数据库D中事务的个数,解决了Apriori中计算Cz的引用页面序列的支持计数时扫描量庞大的瓶颈问题,提高了由C<,2>生成L<,2>的速度。又采用对事务数据库进行修剪的方法压缩了事务数据库,这样可以提高此后每次的扫描速度。本文对Apriori算法和改进算法在效率上作了详细的比较,证明了改进算法远远优于Aptiori算法。 当然,由于时间问题和个人水平问题,该论文还存在一些不足,例如:网络日志文件增长迅速,需要定期删除,那么如何确定一个较合理的时间间隔;会话识别时,如何解决会话划分时存在的误差。
其他文献
本文在市场需求和理论研究的基础上,立足国内外相关条件接收技术标准,着重阐述了数字电视条件接收系统在同密模式下模块接口的实现。  具体内容安排如下:  第一章简要介绍数
大数据时代,数据成为一种资源,而大数据的特点又影响着数据应用和价值产生。数据挖掘作为知识和价值发现有效工具,聚类算法又是数据挖掘的重要内容,所以聚类挖掘算法在大数据应用
钱方法是钱涛教授在2010年左右提出来的一种全新的信号分解重构方法。一维钱方法已经在计算机上得到了快捷的实现,并成功地应用于信号处理。但二维钱方法在计算机上的实现却困
随着移动定位技术和无线通讯技术发展,移动对象数据的应用领域越来越广阔,应用需求越来越迫切。移动对象数据具有时空双重属性、结构复杂性和规模海量性等特点,传统数据库管理系
当今社会迅猛发展,尤其计算机技术的发展已经带动网络时代和信息时代的到来。在这样的背景下,网络的规模极度膨胀使网络系统更加复杂、网络的类型更加多样、服务的种类愈加丰富
路由器的接口即指路由器系统与网络中的其他设备交换数据并相互作用的部分,其功能是完成路由器与其它网络设备的数据交换,在路由器中起着至关重要的作用。为了提高路由器的性能
本文以计算机图形学领域中的三维网格模型处理为背景,研究三维网格重建技术。 本文结合了网格参数化和重要性采样两个不同领域的算法,实现了图像处理算法和图形处理算法的结
近几年伴随着网络的发展,电子书技术日益成熟,应用与影响力正在逐步提升。但随着市场的发展,读者对阅读、管理电子书的需求也不断提高,为推动电子书的普及,电子书编辑系统就需要不
随着Internet在全球的普及和发展,越来越多的计算机用户可以通过网络足不出户地享受丰富的信息资源,方便快捷地收发信息。计算机网络已经和人们的学习、工作紧密的联系在一起,成
上市后药品安全性评价中的不良反应预警以及因果关系评价是药品安全性评价中关键和困难的问题,直接关系到对药品的正确评价,也是最值得探讨的问题之一。利用专家系统知识库和推