Web教学资源及其自动采集技术的探究

来源 :科学与财富 | 被引量 : 0次 | 上传用户:xiaoc009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:面对日益丰富的Web信息资源,利用技术方法对Internet上的教育资源进行高效采集,从而进一步充实教学资源库,为教学活动提供信息资源服务,对教育信息化建设起到促进作用。
  关键词:教学资源 Web 信息采集
  21世纪是一个信息化、教育现代化的世纪,各国都认识到把信息技术与现代教育结合起来的重要性,我国教育部也多次制订了促进教育信息化的重大战略决策。在此背景下,全国各类学校都纷纷建立了各种类别的门户网站和教学网站,一些公司企业也纷纷投入人力、物力进行数字化教学资源的开发与建设,Web教学资源也受到越来越多的关注。
  1、引言
  自Internet进入公众的视界以来,Web信息量呈现出了指数级爆炸性增长的趋势。据NEC研究院在《Nature》上发布,于1999年2月,Internet上公开提供Web服务的网站有达280多万个,Web网页大约有8亿个。21世纪后,各行各业已将Internet作为信息发布的主要渠道,Web网页增长的规模己超越了人们传统的利用能力,而且这种态势还在进一步加强。这就使得我们淹没在信息的海洋里,却很难找到我们想要的知识。所以使用高效的方法对Web上的教育资源进行自动采集,从而有效地充实各种教学资源库,更好地为教学活动提供信息资源服务,以对促进教育信息化建设起到巨大的促进作用,具有重要的学术意义和实践价值。
  2、Web教学资源
  所谓教学资源,广义上讲是指用于教学活动的资源,可以理解为一切可用于教学的物质条件、自然条件、社会条件及媒体条件。从狭义上理解,教学资源也可定义为教学材料、教学环境及教学支持系统等部分,这种解释对教学资源及教学资源库的开发与建设更具操作指导意义。
  3、Web教学资源分布
  Internet信息资源是由节点和超链接构成的有向图,从生态学角度分析发现,同类主题的网站通过超链接与内容引用彼此抱团,在网站之间通过网络生态链可以形成主题网站群。主题网站群由核心主题网站层和外围网站层构成,其中核心主题网站层的网站由于其规模和影响力主导了主题网站群的发展。Web教学资源作为一种主题资源是符合网络生态分布规律的。在Internet上,影响力较大的Web教学资源网站构成了核心教学资源网站,这些网站的教学资源数量较多、质量较高、人气较旺,网站发展势头也就较好,而影响力较小的教学资源网站则通过链接关系或资源引用指向这些核心教学网站。因此,由这些核心教学资源网站为自动采集的起点,通过网络生态链接算法,实现对主题网站的地位及影响力的评价,对主题资源间的生态链接关系予以评测,由此决定Web教学资源的爬取范围及方向,就可以大大提高采集效率。
  4、主题资源自动采集
  Web教学资源的自动采集是一种主题信息资源自动采集,主题信息资源自动采集是利用主题爬行技术以自动化的方式从Web上采集与主题相关的信息资源。主题信息资源采集是一个前后关联的系统任务,涉及了网络爬行技术、文本自动分类技术、文本抽取技术及知识工程技术等多个领域的技术。这里通过构建本体知识库,利用本体技术构建领域知识库,可对主题爬行路线进行预测判断,从而实现主题爬行导航,特别对于那种间隔性的主题漂移链接能够给出比较准确的判断。Web教学资源的自动化采集依赖于有效的主题信息资源采集技术与采集算法,知识推理引擎的推理与判断能力为实现主题信息资源有效采集提供了保证。算法设计以网页为粒度,将Web看作一个互通有向图,使网络爬虫像走“迷宫”一样智能地“蚕食”发现的主题信息资源。
  5、网络生态链算法
  面向当前海量Web信息资源,Web教学资源自动采集的核心算法是网络生态链算法。这种算法是把预测对象定位在网站上,对于整个网站的相关度判断可以通过迭代使用网络生态链算法予以确认,如果经多次计算后,目标网站的网络生态链生命值若降低到阈值以下,则放弃对该站点的采集,否则,确定为采集范围。网络生态链算法能够较好地预测主题信息资源的采集范围。
  Web教学资源自动采集通常需要具有明确的主题范围,然后通过网络生态链算法,经周期性迭代计算就可以发现并逐步确定核心教学资源网站与外围网站。初始阶段,需要人工指定一些核心教学资源网站,把这些网站作为Web教学资源自动采集的入口站点,然后通过这些网站向外扩展以发现新的教学资源网。在教学资源采集过程中,网络生态链算法一方面要判断哪些是具有采集价值需要继续深入挖掘的站点,哪些是采集价值不高需要及时中止并改变网络爬行的路线;另一方面,通过迭代计算发现哪些新的教学网站可作为核心网站,以便对原有的核心教学资源网站群进行更新补充。Web教学资源的采集范围涵盖了Web教学资源采集的重点区域(核心教学资源网站)和围绕核心教学网站群向外扩展的站点(外围教学资源网站),这个网站群是随着自动采集过程而动态变化的。在采集有效的教学资源网站及链接目标时还需要考虑优先级问题。通常核心教学资源网站内资源比较丰富,质量相对较高,因而给予较高的优先级,外围教学网站则给予一般的优先级。对于链接目标的优先级,可根据预测先采集确定性教学资源,再采集不确定性资源。另外,采集过程还可以通过表单的自动注册实现对动态网页中的教学资源进行采集等,具体的采集策略需要根据实际需求进行完成。
  7、结束语
  Web教学资源及其自动采集涉及了多方面的理论及技术,通过对信息资源自动采集技术的探讨,探索其在Web教学资源整合方面的具体应用,以应对Internet快速发展下网络教学对信息资源需求质量逐步提高的需求,然后应用于教学资源建设中,为其提供新的思路及技术支持,以促进教育信息化的发展。
  参考文献
  [1]高凯,郭立炜,许云峰.网络信息检索技术及搜索引擎系统开发[M]北京:科学出版社,2010
  [2]CNNIC.第18-26次中国互联网络发展状况统计报告[R].http://www.cnnic.net.cn/xzzx/tjbgxz/201010/t20101020_16033.html(2011.1)
  [3]张洋,张磊.网络信息资源评价研究综述[J].中国图书馆学报.2010.9,Vol.36,No.189
  作者简介:
  程方玉,女,硕士,河南省轻工业学校信息工程系 高级讲师,从事计算机网络、软件工程方面的教学工作。
  宋斌,男,硕士,河南省轻工业学校信息工程系 高级讲师,从事计算机网络方面的教学工作。
其他文献
作为现代管理学不可或缺的一个分支,激励理论在企业管理工作中已经成为非常重要的指导理论。通过激励理论的科学应用,能够将企业员工潜力有效激发出来,使员工个人目标与企业
摘要:城市污废水中的低温废热对大气、水体、土壤、动植物的影响和危害很严重,如采用热泵技术进行利用,不仅减轻了对环境的危害,还减少了高位能源的消耗,提高了能源的利用率。  关键词:废热污染 低温废热 热平衡 污水源热泵  1、前言  目前,热装置利用效率较低,使得大量能源以废热的形式消耗掉,产生废热污染。据统计,民用燃烧装置的热效率约为10~40%,工业锅炉约为20~70%,火力发电厂约为40%,核
从国际贸易产生时起,就存在保护贸易和自由贸易的博弈,虽然自由贸易更有利于经济发展,但博弈的最终结果仍是各国普遍实行贸易保护政策。
摘 要:农村土地所有权主体的虚置,是目前农村问题的一大争论点和紧要问题,关乎农民和农村建设以及农村土地确权、利用等重要问题。文本从农村集体土地所有权主体虚置的表现切入,分析得出其原因。  关键词:农村集体;土地所有权;权利主体;虚置  一、农村集体土地所有权主体虚置的主要表现  (一)农村集体“三级所有制”的界限不明确,“农民集体”概念虚置  根据《土地管理法》第十条规定,使农村土地所有权形成了三
电视节目已成为大众社会生活中重要的一部分。同时作为大众传播媒体,电视节目的传播在社会大众生活中也承担着重要作用,具有重要的社会意义。
摘 要:随着市场经济体制的不断完善,我国电力企业面临的法律风险也越来越大。对于电力企业而言,法律风险只是多种风险的其中一种,因此并不需要过分害怕电力企业面临的法律风险。存在法律风险并不可怕,可怕的是电力企业法律风险意识的缺失,让企业在面临法律风险时没有行之有效的应对方法。  关键词:电力企业;法律风险;预防  法律是企业经营活动的行为准则,也是也是企业能够发展壮大的关键。企业在日常经营管理活动中,
当代中国马克思主义大众化处在一个多层次、多要素、动态性的社会开放系统环境之中。它作为社会意识形态的一部分,必然要受到国际环境变化和国内环境的现状与发展的制约。同时
一、裂缝产生原因分析  混凝土结构或构件往往是带裂缝工作的。裂缝发展会使结构或构件的承载能力、耐久性和抗渗能力降低,同时会使建筑物的外观变差,建筑物的使用寿命降低,甚至严重时会威胁到人们生命和财产安全。从多方面统计数据来看,很多工程混凝土的质量事故都是由于混凝土裂缝的发展所致。我们必须要采取有效控制的措施,将其混凝土裂缝的发展造成危害程度严格控制在规范范围之内,保证建筑物对人们生命和财产安全。