论文部分内容阅读
摘要:面对日益丰富的Web信息资源,利用技术方法对Internet上的教育资源进行高效采集,从而进一步充实教学资源库,为教学活动提供信息资源服务,对教育信息化建设起到促进作用。
关键词:教学资源 Web 信息采集
21世纪是一个信息化、教育现代化的世纪,各国都认识到把信息技术与现代教育结合起来的重要性,我国教育部也多次制订了促进教育信息化的重大战略决策。在此背景下,全国各类学校都纷纷建立了各种类别的门户网站和教学网站,一些公司企业也纷纷投入人力、物力进行数字化教学资源的开发与建设,Web教学资源也受到越来越多的关注。
1、引言
自Internet进入公众的视界以来,Web信息量呈现出了指数级爆炸性增长的趋势。据NEC研究院在《Nature》上发布,于1999年2月,Internet上公开提供Web服务的网站有达280多万个,Web网页大约有8亿个。21世纪后,各行各业已将Internet作为信息发布的主要渠道,Web网页增长的规模己超越了人们传统的利用能力,而且这种态势还在进一步加强。这就使得我们淹没在信息的海洋里,却很难找到我们想要的知识。所以使用高效的方法对Web上的教育资源进行自动采集,从而有效地充实各种教学资源库,更好地为教学活动提供信息资源服务,以对促进教育信息化建设起到巨大的促进作用,具有重要的学术意义和实践价值。
2、Web教学资源
所谓教学资源,广义上讲是指用于教学活动的资源,可以理解为一切可用于教学的物质条件、自然条件、社会条件及媒体条件。从狭义上理解,教学资源也可定义为教学材料、教学环境及教学支持系统等部分,这种解释对教学资源及教学资源库的开发与建设更具操作指导意义。
3、Web教学资源分布
Internet信息资源是由节点和超链接构成的有向图,从生态学角度分析发现,同类主题的网站通过超链接与内容引用彼此抱团,在网站之间通过网络生态链可以形成主题网站群。主题网站群由核心主题网站层和外围网站层构成,其中核心主题网站层的网站由于其规模和影响力主导了主题网站群的发展。Web教学资源作为一种主题资源是符合网络生态分布规律的。在Internet上,影响力较大的Web教学资源网站构成了核心教学资源网站,这些网站的教学资源数量较多、质量较高、人气较旺,网站发展势头也就较好,而影响力较小的教学资源网站则通过链接关系或资源引用指向这些核心教学网站。因此,由这些核心教学资源网站为自动采集的起点,通过网络生态链接算法,实现对主题网站的地位及影响力的评价,对主题资源间的生态链接关系予以评测,由此决定Web教学资源的爬取范围及方向,就可以大大提高采集效率。
4、主题资源自动采集
Web教学资源的自动采集是一种主题信息资源自动采集,主题信息资源自动采集是利用主题爬行技术以自动化的方式从Web上采集与主题相关的信息资源。主题信息资源采集是一个前后关联的系统任务,涉及了网络爬行技术、文本自动分类技术、文本抽取技术及知识工程技术等多个领域的技术。这里通过构建本体知识库,利用本体技术构建领域知识库,可对主题爬行路线进行预测判断,从而实现主题爬行导航,特别对于那种间隔性的主题漂移链接能够给出比较准确的判断。Web教学资源的自动化采集依赖于有效的主题信息资源采集技术与采集算法,知识推理引擎的推理与判断能力为实现主题信息资源有效采集提供了保证。算法设计以网页为粒度,将Web看作一个互通有向图,使网络爬虫像走“迷宫”一样智能地“蚕食”发现的主题信息资源。
5、网络生态链算法
面向当前海量Web信息资源,Web教学资源自动采集的核心算法是网络生态链算法。这种算法是把预测对象定位在网站上,对于整个网站的相关度判断可以通过迭代使用网络生态链算法予以确认,如果经多次计算后,目标网站的网络生态链生命值若降低到阈值以下,则放弃对该站点的采集,否则,确定为采集范围。网络生态链算法能够较好地预测主题信息资源的采集范围。
Web教学资源自动采集通常需要具有明确的主题范围,然后通过网络生态链算法,经周期性迭代计算就可以发现并逐步确定核心教学资源网站与外围网站。初始阶段,需要人工指定一些核心教学资源网站,把这些网站作为Web教学资源自动采集的入口站点,然后通过这些网站向外扩展以发现新的教学资源网。在教学资源采集过程中,网络生态链算法一方面要判断哪些是具有采集价值需要继续深入挖掘的站点,哪些是采集价值不高需要及时中止并改变网络爬行的路线;另一方面,通过迭代计算发现哪些新的教学网站可作为核心网站,以便对原有的核心教学资源网站群进行更新补充。Web教学资源的采集范围涵盖了Web教学资源采集的重点区域(核心教学资源网站)和围绕核心教学网站群向外扩展的站点(外围教学资源网站),这个网站群是随着自动采集过程而动态变化的。在采集有效的教学资源网站及链接目标时还需要考虑优先级问题。通常核心教学资源网站内资源比较丰富,质量相对较高,因而给予较高的优先级,外围教学网站则给予一般的优先级。对于链接目标的优先级,可根据预测先采集确定性教学资源,再采集不确定性资源。另外,采集过程还可以通过表单的自动注册实现对动态网页中的教学资源进行采集等,具体的采集策略需要根据实际需求进行完成。
7、结束语
Web教学资源及其自动采集涉及了多方面的理论及技术,通过对信息资源自动采集技术的探讨,探索其在Web教学资源整合方面的具体应用,以应对Internet快速发展下网络教学对信息资源需求质量逐步提高的需求,然后应用于教学资源建设中,为其提供新的思路及技术支持,以促进教育信息化的发展。
参考文献
[1]高凯,郭立炜,许云峰.网络信息检索技术及搜索引擎系统开发[M]北京:科学出版社,2010
[2]CNNIC.第18-26次中国互联网络发展状况统计报告[R].http://www.cnnic.net.cn/xzzx/tjbgxz/201010/t20101020_16033.html(2011.1)
[3]张洋,张磊.网络信息资源评价研究综述[J].中国图书馆学报.2010.9,Vol.36,No.189
作者简介:
程方玉,女,硕士,河南省轻工业学校信息工程系 高级讲师,从事计算机网络、软件工程方面的教学工作。
宋斌,男,硕士,河南省轻工业学校信息工程系 高级讲师,从事计算机网络方面的教学工作。
关键词:教学资源 Web 信息采集
21世纪是一个信息化、教育现代化的世纪,各国都认识到把信息技术与现代教育结合起来的重要性,我国教育部也多次制订了促进教育信息化的重大战略决策。在此背景下,全国各类学校都纷纷建立了各种类别的门户网站和教学网站,一些公司企业也纷纷投入人力、物力进行数字化教学资源的开发与建设,Web教学资源也受到越来越多的关注。
1、引言
自Internet进入公众的视界以来,Web信息量呈现出了指数级爆炸性增长的趋势。据NEC研究院在《Nature》上发布,于1999年2月,Internet上公开提供Web服务的网站有达280多万个,Web网页大约有8亿个。21世纪后,各行各业已将Internet作为信息发布的主要渠道,Web网页增长的规模己超越了人们传统的利用能力,而且这种态势还在进一步加强。这就使得我们淹没在信息的海洋里,却很难找到我们想要的知识。所以使用高效的方法对Web上的教育资源进行自动采集,从而有效地充实各种教学资源库,更好地为教学活动提供信息资源服务,以对促进教育信息化建设起到巨大的促进作用,具有重要的学术意义和实践价值。
2、Web教学资源
所谓教学资源,广义上讲是指用于教学活动的资源,可以理解为一切可用于教学的物质条件、自然条件、社会条件及媒体条件。从狭义上理解,教学资源也可定义为教学材料、教学环境及教学支持系统等部分,这种解释对教学资源及教学资源库的开发与建设更具操作指导意义。
3、Web教学资源分布
Internet信息资源是由节点和超链接构成的有向图,从生态学角度分析发现,同类主题的网站通过超链接与内容引用彼此抱团,在网站之间通过网络生态链可以形成主题网站群。主题网站群由核心主题网站层和外围网站层构成,其中核心主题网站层的网站由于其规模和影响力主导了主题网站群的发展。Web教学资源作为一种主题资源是符合网络生态分布规律的。在Internet上,影响力较大的Web教学资源网站构成了核心教学资源网站,这些网站的教学资源数量较多、质量较高、人气较旺,网站发展势头也就较好,而影响力较小的教学资源网站则通过链接关系或资源引用指向这些核心教学网站。因此,由这些核心教学资源网站为自动采集的起点,通过网络生态链接算法,实现对主题网站的地位及影响力的评价,对主题资源间的生态链接关系予以评测,由此决定Web教学资源的爬取范围及方向,就可以大大提高采集效率。
4、主题资源自动采集
Web教学资源的自动采集是一种主题信息资源自动采集,主题信息资源自动采集是利用主题爬行技术以自动化的方式从Web上采集与主题相关的信息资源。主题信息资源采集是一个前后关联的系统任务,涉及了网络爬行技术、文本自动分类技术、文本抽取技术及知识工程技术等多个领域的技术。这里通过构建本体知识库,利用本体技术构建领域知识库,可对主题爬行路线进行预测判断,从而实现主题爬行导航,特别对于那种间隔性的主题漂移链接能够给出比较准确的判断。Web教学资源的自动化采集依赖于有效的主题信息资源采集技术与采集算法,知识推理引擎的推理与判断能力为实现主题信息资源有效采集提供了保证。算法设计以网页为粒度,将Web看作一个互通有向图,使网络爬虫像走“迷宫”一样智能地“蚕食”发现的主题信息资源。
5、网络生态链算法
面向当前海量Web信息资源,Web教学资源自动采集的核心算法是网络生态链算法。这种算法是把预测对象定位在网站上,对于整个网站的相关度判断可以通过迭代使用网络生态链算法予以确认,如果经多次计算后,目标网站的网络生态链生命值若降低到阈值以下,则放弃对该站点的采集,否则,确定为采集范围。网络生态链算法能够较好地预测主题信息资源的采集范围。
Web教学资源自动采集通常需要具有明确的主题范围,然后通过网络生态链算法,经周期性迭代计算就可以发现并逐步确定核心教学资源网站与外围网站。初始阶段,需要人工指定一些核心教学资源网站,把这些网站作为Web教学资源自动采集的入口站点,然后通过这些网站向外扩展以发现新的教学资源网。在教学资源采集过程中,网络生态链算法一方面要判断哪些是具有采集价值需要继续深入挖掘的站点,哪些是采集价值不高需要及时中止并改变网络爬行的路线;另一方面,通过迭代计算发现哪些新的教学网站可作为核心网站,以便对原有的核心教学资源网站群进行更新补充。Web教学资源的采集范围涵盖了Web教学资源采集的重点区域(核心教学资源网站)和围绕核心教学网站群向外扩展的站点(外围教学资源网站),这个网站群是随着自动采集过程而动态变化的。在采集有效的教学资源网站及链接目标时还需要考虑优先级问题。通常核心教学资源网站内资源比较丰富,质量相对较高,因而给予较高的优先级,外围教学网站则给予一般的优先级。对于链接目标的优先级,可根据预测先采集确定性教学资源,再采集不确定性资源。另外,采集过程还可以通过表单的自动注册实现对动态网页中的教学资源进行采集等,具体的采集策略需要根据实际需求进行完成。
7、结束语
Web教学资源及其自动采集涉及了多方面的理论及技术,通过对信息资源自动采集技术的探讨,探索其在Web教学资源整合方面的具体应用,以应对Internet快速发展下网络教学对信息资源需求质量逐步提高的需求,然后应用于教学资源建设中,为其提供新的思路及技术支持,以促进教育信息化的发展。
参考文献
[1]高凯,郭立炜,许云峰.网络信息检索技术及搜索引擎系统开发[M]北京:科学出版社,2010
[2]CNNIC.第18-26次中国互联网络发展状况统计报告[R].http://www.cnnic.net.cn/xzzx/tjbgxz/201010/t20101020_16033.html(2011.1)
[3]张洋,张磊.网络信息资源评价研究综述[J].中国图书馆学报.2010.9,Vol.36,No.189
作者简介:
程方玉,女,硕士,河南省轻工业学校信息工程系 高级讲师,从事计算机网络、软件工程方面的教学工作。
宋斌,男,硕士,河南省轻工业学校信息工程系 高级讲师,从事计算机网络方面的教学工作。