论文部分内容阅读
摘 要: 本文分析了远程教育提供个性化教学服务的现状,提出利用Web使用挖掘技术,构造一个个性化远程教育的系统模型,通过对学生访问行为、频度、内容、停留时间等的分析,得出学生访问行为和方式的一般模式,并通过该模型的应用实例及其应用效果的分析验证了该模型的有效性和实用性。
关键词: Web使用挖掘 个性化远程教育 教学支持服务
1.问题的提出
随着互联网应用的快速发展,以及教育大众化和终身教育的需求,以网络通讯技术、计算机多媒体技术为依托,通过网络向学生提供形式多样的学习模式可以实现在不同地点实时地、交互地和有选择地进行学习,具有时空自由、资源共享、系统开放等优点。向学生提供个性化的教学服务就成为其区别于传统教学模式的重要特征,因此也成为现代远程教育的重要研究课题之一。
Web挖掘就是将传统的数据挖掘技术和Web结合起来,進行Web知识的提取。一般Web挖掘可分为:Web结构挖掘、Web内容挖掘和Web使用挖掘。本文讨论的重点在于Web使用挖掘。
2.Web使用挖掘
2.1处理模型
Web使用挖掘的主要任务是研究用户的浏览行为(即对Web站点的使用)。和其他数据挖掘一样,Web使用挖掘也需经过数据采集、数据预处理、模式发现和模式分析等过程。
2.1.1数据预处理
对得到的原始用户浏览信息进行处理,取出用户访问的URL、页面的大小、请求的时间、在页面上停留的时间、请求者的Internet域名、用户、服务器状态等变量。下面分析比较常见的从Web日志中获取的浏览信息的预处理过程。它包括如下几个方面。
2.1.1.1数据清洗。删除Web日志中与数据挖掘不相关的冗余项。Web日志记录了用户IP地址、用户名、用户请求访问的URL页面、访问时间、传输协议、传输的字节数、访问出错信息等属性,而与数据挖掘相关的只有用户IP地址、用户名、用户请求访问的URL页面与访问时间,其他属性可以去掉。
2.1.1.2用户识别。由于本地缓存、代理服务器和防火墙的存在,识别用户的任务变得很复杂。只能尽可能地用比较合理的启发式规则来进行用户识别。如一旦发现用户端浏览器软件或操作系统发生改变,则认为是新用户。
2.1.1.3事务识别。会话是指同一个用户连续请求的页面,不同用户访问的页面属于不同的会话。
2.1.2模式发现
在对事务进行了划分后,我们就可以根据具体的分析需求选择访问模式发现的技术,如路径分析、关联规则挖掘、序列模式,以及聚类和分类技术。这些对于Web站点的性能改进有重要的作用,如路径分析可以用来发现Web站点中最经常被访问的路径,从而可以调整站点的结构。
2.1.3被发现的模式用于个性化处理
在模式抽取后进行分析和应用。挖掘结果可能会有大量的模式,如关联规则可能会发现很多的规则。如果这些模式全部被采用,人们就很难理解。模式分析忽略了一些不重要的模式,而且允许人们将模式表示加上一些限制,将抽取出的模式用容易理解的方式显示出来,如可视化。然后应用这些模式改进站点的结构和帮助用户浏览。
2.2Web使用挖掘在远程教育中的应用
Web使用挖掘在远程教育中主要应用于以下各个方面。
2.2.1系统改进
对Web系统的特性数据进行分析,如:可以提供Web流量行为的分析,利用它来进行Web缓存、存取平衡等,据此对远程教育系统性能进行改进。
2.2.2站点修改
对所有学生的浏览路径进行挖掘,发现其中某些页面的逻辑关联。把一组频繁访问的页面直接链接,以改善远程教育站点结构。
2.2.3智能服务
学生如何使用远程教育网站来进行学习对于远程教育提供者来说是很重要的。通过对学生行为和所选课程等关系的挖掘,发现其中的学生群学习特征和趋势等来进行智能服务,为远程教育提供者提供决策依据。
2.2.4个性化
从单个学生的浏览信息发现学生的兴趣,向每位学生提供符合其兴趣要求的个性化界面。
3.个性化远程教学模型
Web服务器为客户端提供HTTP服务等功能,应用服务器内存放学生的个人注册和相关课程等信息。
每个学生在开始使用网站时先在应用服务器上进行注册,控制模块负责对采集的学生浏览路径进行预处理和相关的数据挖掘,学生个性数据库用于存放挖掘出来的各种模式。
个性化远程教育主要由以下几部分组成。
3.1浏览路径预处理
对学生的浏览路径信息进行一些预备处理,包括数据清洗、用户识别、会话识别和路径补充等。数据清洗是指删除一些无用的或错误的数据。用户识别是指对路径信息通过一些启发式规则进行识别路径的用户归属。会话识别是指在用户识别的基础上辨认不同的会话。一般利用超时的方法决定用户是否都开始了一个新的会话。路径补充是在路径不完整的情况下利用站点的拓扑结构找出遗漏的页面。
3.2建立学生个性数据仓库
对已预处理过的学生访问数据建立数据仓库,这个数据库负责提供一个良好的数据挖掘环境。数据仓库可以设立多个维度,如时间维、域名维、文件维和浏览工具维等。每个维设立多个属性值,如时间维的属性可以表示为星期一、星期二、……星期日等。
3.3被发现的模式用于个性化处理
在已建立的数据仓库的基础上,我们可以用五种挖掘技术进行个性化教学支持服务。
3.3.1根据路径分析改善站点结构。它可以用于辨别在Web站点中频繁访问的路径集和其他一些通过路径分析得到有关知识,并利用这些知识来改善站点结构。
3.3.2利用关联规则发现学生的某些知识兴趣点之间的相关性,然后将它们之间的超链接动态地提供给学生,使学生在网上学习更加方便。
3.3.3通过分类算法对学生的知识水平进行分类,给予不同级别的训练。
3.3.4利用聚类算法从Web访问信息数据中聚类出具有相似性的那些学生。
3.3.5利用序列模式的挖掘来找出学生学习过程中的事件序列关系。
本文对Web使用挖掘的过程、挖掘算法,以及挖掘出来的模式和表示进行了分析,构造了一个基于Web使用挖掘的个性化远程教育网站模型。进一步的工作是将模型细化、扩充,使其在远程教育的实践中发挥作用。
Web挖掘技术在远程教育的教学支持服务中的应用是一个新的领域,也是一个带有很大挑战性的课题。随着研究的进一步深入,此项技术将为远程教育中个性化教学支持服务研究提供一条新的途径。
参考文献:
[1]周蔚.现代远程教育学习支持服务现状研究[J].中国远程教育,2005,(3).
[2]冯建军.试论个性化教育的原则[J].江西教育科研,2004,(5).
[3]舒蓓,申瑞民,王加俊.个性化的远程学习模型[J].计算机工程与应用,2001,(9).
[4]夏火松.数据仓库与数据挖掘技术[M].科学出版社,2004:207-225.
关键词: Web使用挖掘 个性化远程教育 教学支持服务
1.问题的提出
随着互联网应用的快速发展,以及教育大众化和终身教育的需求,以网络通讯技术、计算机多媒体技术为依托,通过网络向学生提供形式多样的学习模式可以实现在不同地点实时地、交互地和有选择地进行学习,具有时空自由、资源共享、系统开放等优点。向学生提供个性化的教学服务就成为其区别于传统教学模式的重要特征,因此也成为现代远程教育的重要研究课题之一。
Web挖掘就是将传统的数据挖掘技术和Web结合起来,進行Web知识的提取。一般Web挖掘可分为:Web结构挖掘、Web内容挖掘和Web使用挖掘。本文讨论的重点在于Web使用挖掘。
2.Web使用挖掘
2.1处理模型
Web使用挖掘的主要任务是研究用户的浏览行为(即对Web站点的使用)。和其他数据挖掘一样,Web使用挖掘也需经过数据采集、数据预处理、模式发现和模式分析等过程。
2.1.1数据预处理
对得到的原始用户浏览信息进行处理,取出用户访问的URL、页面的大小、请求的时间、在页面上停留的时间、请求者的Internet域名、用户、服务器状态等变量。下面分析比较常见的从Web日志中获取的浏览信息的预处理过程。它包括如下几个方面。
2.1.1.1数据清洗。删除Web日志中与数据挖掘不相关的冗余项。Web日志记录了用户IP地址、用户名、用户请求访问的URL页面、访问时间、传输协议、传输的字节数、访问出错信息等属性,而与数据挖掘相关的只有用户IP地址、用户名、用户请求访问的URL页面与访问时间,其他属性可以去掉。
2.1.1.2用户识别。由于本地缓存、代理服务器和防火墙的存在,识别用户的任务变得很复杂。只能尽可能地用比较合理的启发式规则来进行用户识别。如一旦发现用户端浏览器软件或操作系统发生改变,则认为是新用户。
2.1.1.3事务识别。会话是指同一个用户连续请求的页面,不同用户访问的页面属于不同的会话。
2.1.2模式发现
在对事务进行了划分后,我们就可以根据具体的分析需求选择访问模式发现的技术,如路径分析、关联规则挖掘、序列模式,以及聚类和分类技术。这些对于Web站点的性能改进有重要的作用,如路径分析可以用来发现Web站点中最经常被访问的路径,从而可以调整站点的结构。
2.1.3被发现的模式用于个性化处理
在模式抽取后进行分析和应用。挖掘结果可能会有大量的模式,如关联规则可能会发现很多的规则。如果这些模式全部被采用,人们就很难理解。模式分析忽略了一些不重要的模式,而且允许人们将模式表示加上一些限制,将抽取出的模式用容易理解的方式显示出来,如可视化。然后应用这些模式改进站点的结构和帮助用户浏览。
2.2Web使用挖掘在远程教育中的应用
Web使用挖掘在远程教育中主要应用于以下各个方面。
2.2.1系统改进
对Web系统的特性数据进行分析,如:可以提供Web流量行为的分析,利用它来进行Web缓存、存取平衡等,据此对远程教育系统性能进行改进。
2.2.2站点修改
对所有学生的浏览路径进行挖掘,发现其中某些页面的逻辑关联。把一组频繁访问的页面直接链接,以改善远程教育站点结构。
2.2.3智能服务
学生如何使用远程教育网站来进行学习对于远程教育提供者来说是很重要的。通过对学生行为和所选课程等关系的挖掘,发现其中的学生群学习特征和趋势等来进行智能服务,为远程教育提供者提供决策依据。
2.2.4个性化
从单个学生的浏览信息发现学生的兴趣,向每位学生提供符合其兴趣要求的个性化界面。
3.个性化远程教学模型
Web服务器为客户端提供HTTP服务等功能,应用服务器内存放学生的个人注册和相关课程等信息。
每个学生在开始使用网站时先在应用服务器上进行注册,控制模块负责对采集的学生浏览路径进行预处理和相关的数据挖掘,学生个性数据库用于存放挖掘出来的各种模式。
个性化远程教育主要由以下几部分组成。
3.1浏览路径预处理
对学生的浏览路径信息进行一些预备处理,包括数据清洗、用户识别、会话识别和路径补充等。数据清洗是指删除一些无用的或错误的数据。用户识别是指对路径信息通过一些启发式规则进行识别路径的用户归属。会话识别是指在用户识别的基础上辨认不同的会话。一般利用超时的方法决定用户是否都开始了一个新的会话。路径补充是在路径不完整的情况下利用站点的拓扑结构找出遗漏的页面。
3.2建立学生个性数据仓库
对已预处理过的学生访问数据建立数据仓库,这个数据库负责提供一个良好的数据挖掘环境。数据仓库可以设立多个维度,如时间维、域名维、文件维和浏览工具维等。每个维设立多个属性值,如时间维的属性可以表示为星期一、星期二、……星期日等。
3.3被发现的模式用于个性化处理
在已建立的数据仓库的基础上,我们可以用五种挖掘技术进行个性化教学支持服务。
3.3.1根据路径分析改善站点结构。它可以用于辨别在Web站点中频繁访问的路径集和其他一些通过路径分析得到有关知识,并利用这些知识来改善站点结构。
3.3.2利用关联规则发现学生的某些知识兴趣点之间的相关性,然后将它们之间的超链接动态地提供给学生,使学生在网上学习更加方便。
3.3.3通过分类算法对学生的知识水平进行分类,给予不同级别的训练。
3.3.4利用聚类算法从Web访问信息数据中聚类出具有相似性的那些学生。
3.3.5利用序列模式的挖掘来找出学生学习过程中的事件序列关系。
本文对Web使用挖掘的过程、挖掘算法,以及挖掘出来的模式和表示进行了分析,构造了一个基于Web使用挖掘的个性化远程教育网站模型。进一步的工作是将模型细化、扩充,使其在远程教育的实践中发挥作用。
Web挖掘技术在远程教育的教学支持服务中的应用是一个新的领域,也是一个带有很大挑战性的课题。随着研究的进一步深入,此项技术将为远程教育中个性化教学支持服务研究提供一条新的途径。
参考文献:
[1]周蔚.现代远程教育学习支持服务现状研究[J].中国远程教育,2005,(3).
[2]冯建军.试论个性化教育的原则[J].江西教育科研,2004,(5).
[3]舒蓓,申瑞民,王加俊.个性化的远程学习模型[J].计算机工程与应用,2001,(9).
[4]夏火松.数据仓库与数据挖掘技术[M].科学出版社,2004:207-225.