试论基于数据挖掘技术的开放学习信息平台建设

来源 :电脑迷 | 被引量 : 0次 | 上传用户:chenman1982
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要 本文通过对现有可获取学习信息的系统和网络状况的分析,提出了一个针对所有学习者的开放的学习信息平台模型。使用计算机技术和网络手段将各类学习信息聚合和共享,并且嵌入数据挖掘功能。旨在方便学习者的交流和合作,提高获取学习信息的效率,实现知识发现,减少教育资源分配的地域差异。
  关键词 Xml 数据挖掘 学习信息平台
  中图分类号:G424 文献标识码:A
  1 研究缘起
  本文将探讨建立一个开放的学习平台,试图通过搭建一个开放的信息平台来进行学习信息资源的交流和积累,并试探在数据库中进行数据挖掘来实现将数据开发为知识,提供二次信息,使数据变得有意义和更加具有参考、使用价值。特别是对地处偏远的地方的学习者更加有意义,可以通过远程网络参考到相关的资料辅助学业。
  以现在信息技术和网络的发展,在BBS或很多机构网站上都可以得到很多学习信息。但是内容往往多而繁杂,BBS参与讨论的用户不全是专业人士,所提供的内容不一定准确。因此,本文拟探讨建设一个专业的、开放的学习信息平台,审核和整合各种学习资源,实现对学习数据之间的统一管理、能够交流,被进一步开发和广泛利用。这样包括学者、教学人员、研究人员、学习者都可以共享平台的资源,并且平台要向已经投入使用的学习资源系统开放,提供相关接口聚合已有的电子学习资源。
  2 信息平台建设
  2.1 设计理念
  (1)采用分布式应用和客户机/服务器模型作为学习信息平台整体架构。分布式应用通过在多层服务器上中心化处理业务逻辑,可以减少客户的工作负载,提高网络数据的安全性。在分布式应用中,客户端处理同用户的所有交互,而中间层服务器则提供客户的后台服务。WEB应用是分布式体系结构的一个应用模型,客户位于WEB浏览器中;各种构件位于服务器上的中间层,向下提供访问数据库的接口,向上提供客户端访问接口。使用分布式应用可以整合异构系统资源,提供统一的用户服务。
  (2)使用XML进行文档的浏览和操作。XML有一个很显著的特点,就是将信息内容与表达形式完全分离开了。XML文档本身不描述数据的显示方式,而只是表示数据的本身。体现在它允许文档的编写者制定基于信息描述、体现数据之间逻辑关系的自定义标记,确保文档具有较强的易读性、清晰的语义和易检索性。这种特点使得XML能专心进行数据的处理和结构的描述,而不必考虑向客户传递信息表达方式。使用XML可以表达复杂的信息。
  (3)嵌入数据挖掘模块,实现知识发现。数据挖掘是指按照既定业务目标,对大量的数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。数据挖掘是一种知识发现的过程,同时又是一种决策支持过程。决策支持是对信息系统的功能要求最高的系统,它主要基于人工智能、机器学习、统计学等技术,高度智能化地分析原有数据,做出归纳性推理,从中挖掘出潜在的模式和规律。在学习信息平台中嵌入综合使用多种数据挖掘方法的模块有利于信息综合分析、自定义分析和知识发现。
  2.2 建模
  模型的框架结构如图1所示。结构上分为三层;客户端、中间层、服务器。采用瘦客户机模型,客户端的服务仅仅限于XML数据的显示和操作;中间层服务,主要的业务处理过程都在中间层实现,在物理上和逻辑上往往不只是由单一的设备或模块来实现,分模块来实现系统的功能。但是这种结构使得系统功能的维护和改善变得更简易和方便。数据源作为三层结构的底层,必须对中间层提供强有力的支持。平衡数据源和中间层的负载也是不容忽视的一个方面。
  (1)客户端功能描述。客户端是用户使用资源的接口,因此它的设计不仅要做到界面的美观、实用,更重要的是用户使用数据的安全、快捷和方便。还要具备易维护性、为平台上所有软件开发预留升级接口。
  客户端的最重要实现方式是基于网络浏览器的方式(Web Browser)。采用这种方式可以支持XML文档的浏览和操作。XML充当客户端和中间层之间传递数据的承载者。采用XML表达信息的优点如下:a、XML结构化的组织方式适合表达复杂的信息资料,方便用户的使用;b、在中间层以XML文档方式返回检索结果集之后,XML文档本身可以作为一个临时数据源支持常用的数据操作,减少了远程网络的数据流动;c、XML的Internet应用环境提供了一些解决数据安全的手段;d、XML是一种标准的规范,实现了数据的结构和显示分开,数据不仅能够用来显示,还能为其他的应用程序提供数据源,与其他信息系统交换数据;e、XML有扩展性,和预留的升级接口便于系统以后的扩展;f、采用瘦客户机模型,客户端的功能简洁,易于系统维护。
  客户端另外的一个实现方式就是传统的应用程序服务方式(Client Application)。这种服务方式主要用来弥补浏览器服务方式的不足。
  (2)中间层。中间层是系统实现的核心,系统大部分工作都在中间层完成。信息服务器(Information Server)提供对浏览器方式的服务,接收来自浏览器的命令,与数据源或数据服务器(Database Server)交互(使用Vbscript或其他脚本语言),然后将结果封装为XML文档或HTML文档发送给客户端。应用程序服务器(Application Server)提供对应用程序服务方式的服务,一般以结果集(Recordset)方式接收或发送数据。应用程序服务器具有大量的服务组件,因此信息服务器中的Script同样也可以分享这些组件的服务。
  中间层有一个进行数据挖掘的模块(Data Mining)。由于数据挖掘模式的复杂性和多样性,系统并不能提供所有的挖掘方法,但是可以提供一些面向信息、成熟的挖掘方案提供给客户端选择。
  (3)数据源。数据源作为整个系统的底层,承担着数据存储和数据检索的任务。从系统结构上来看,数据源支持中间层,中间层也要有效的使用数据源服务,并且有以下服务原则:a、合理使用数据源提供的服务;b、中间层要尽量减少数据检索的重复次数,提高一次检索成功率;c、提高中间层自动优化数据库服务器资源分配的能力。
  3 学习平台资源建设
  学习信息平台资源的建设主要包括整合参与机构已有的学习资源和及时获取自由发布的资源进行质量审查,合格后加入平台资源库两个方面。前者保障学习平台资源的基本积累和资源数量,后者保障学习平台资源的及时更新和时效性。
  (1)来自整合的资源。整合参与机构已有的学习资源,通过开发接口将不同机构的不同类型的学习资源整合在一起,实现统一检索,这是学习平台资源的基本保障和重要来源。
  (2)自由发布的资源。自由发布资源的获取可以使用网络爬虫,采取类似搜索引擎的工作原理,定义抓取原则,及时抓取网络上符合抓取原则的资源。抓取后进行质量分析,对分析合格的资源进行描述,提供指向链接,采用这种学科导航的方式帮助学习者及时准确获取可靠的学习资源,减少个人整合分析的时间,提高学习研究的效率。
  4 总结
  本文就现有的网络和信息技术状况提出了一个帮助汇总和利用的开放性平台,试图最大可能的为所有对共享学习信息资源有兴趣的人员,提供最开放的服务。目的旨在为学习者和研究者提供一个交互的平台,提高获取学习信息的效率,实现知识发现,减少教育资源分配的地域差异。此系统的开发还存在一些需要探讨的问题:a、谁来实施这个开放学习信息平台? b、谁来组织资源整合?c、谁来进行内容审核?d、谁来进行日常管理?是政府、还是教育相关的单位联盟或其他机构,都是值得继续探讨的问题。
  参考文献
  [1] 张维明.语义信息模型及应用[M].北京:电子工业出版社,2002.
  [2] 黄如花.数字图书馆原理与技术[M].武汉:武汉大学出版社,2005.
其他文献
摘 要 计算机技术是人类技术的一次伟大革命,它快速推动着人类科学技术的发展,把人与人之间的距离拉近,改变了人们交流的传统方式,使人类生活在一个地球村的信息时代。同样,计算机技术也改变了广播在传统技术方面的应用,促进了广播的快速发展,使今天的广播在不同的接收端(互联网、车载收音机、收音机)能收听到声音更清晰、音乐更逼真、内容更丰富的数字广播。  关键词 计算机技术 广播领域 声音媒介  中图分类号:
摘 要 本文中所描述的项目旨在连接到公共电话网络(PSTN)的语音电话用户和在网络环境(IP协议域)下运行的移动投票系统之间建立一个中间软桥。此投票软桥将在语音电话用户和基于网络的投票系统之间建立一个实时的通信会话。投票系统采用选举标记语言(EML)为标准。在投票过程冲采用语音引导选民。这将增加选举的投票率,并减少选举成本。它也将提高选举制度的完整性,最大限度地减少发生无效选票(多投,少投和手写选
摘 要 国家档案资源是以高校档案为基础建立的,它在国家档案资源体系中占据了重要位置。在高校档案中要数教学档案和学生档案这两个类别的信息量最为庞大。我国各大高校存放了大量的图纸和文档于档案室,因为传统的管理模式现已经造成了相关部门工作效率的瓶颈,在工作中缺乏行之有效的档案管理手段。当今,各大高校档案管理部门面临的主要问题有:如何有效地提高组织能力、强化管理模式和档案的充分利用,更好地实现档案馆的作用
摘 要 在通道学习中,学习者总是一知半解,理不清楚通道是干什么用的。本文介绍了通道种类,各种通道的颜色数量,并给出通过通道将人物从背景中抠出的一般方法步骤,让读者在实践过程中掌握通道的含义。  关键词 通道 理解 含义  中图分类号:TP31 文献标识码:A  在photoshop学习中,关于介绍通道的文章多不胜举,高校和中职院校平面设计课程中也大致介绍过通道使用方法。这个重点章节是一个难点,无论
摘 要 该文针对目前比较流行的HTML5移动应用框架进行了阐述,分别介绍了PhoneGap、Sencha Touch、jQuery Mobile、Titanium Mobile等四种常用的框架特点及运用。  关键词 HTML5 移动应用框架 PhoneGap 跨平台  中图分类号:TP311 文献标识码:A  目前,随着Google的Android手机和苹果的iphone手机的逐渐普及,越来越多开
摘 要 网络信息的飞速发展给人类社会带来巨大的推动与冲击,同时也产生了网络系统安全问题。计算机网络的安全问题越来越受到人们的重视,由于计算机网络组成形式多样性、终端分布广和网络的开放性、互联性等特征,致使网络信息容易受到黑客的窃取、计算机系统容易受恶意软件攻击,因此,计算机网络信息资源的安全成为一个重要的话题。  关键词 计算机 网络安全性 防火墙  中图分类号:TP393.08 文献标识码:A 
摘 要 在软件开发过程中设计的实现是在编码阶段。把思想变成代码的过程是发生错误的主要场合。有两种类型的错误:没有包括期望的功能;在代码中包含一些不期望的功能。如果在过程的前一阶段已经把需求列举清楚,测试这种错误相对较为容易。本文主要探讨基于编码技术的计算机网络安全结构设计。  关键词 编码技术 网络安全 结构设计  中图分类号:TP393.08 文献标识码:A  编码技术用于数字传输中。编码是指如
摘 要 随着计算机的广泛应用,计算机病毒的检测及预防已经成为当下最主要的计算机研究问题。病毒不仅会降低计算机的运行速度,而且会导致计算机内文件的丢失,造成无可挽回的损失。本文从计算机病毒的定义入手,浅谈计算机病毒的特点及其防范措施。  关键词 计算机 病毒 防范  中图分类号:TP393.5 文献标识码:A  一般来讲,凡是能够引起计算机故障,能够破坏计算机中的资源(包括硬件和软件)的代码,统称为
摘 要 飞信是中国移动公司推出的一款即时通讯产品,其支持飞信消息收发、语聊、收发图片等功能,但是飞信功能缺乏创新,宣传力度也不够,用户体验还有待提高。因此移动应该优化飞信功能,注意区分客户需求,提高飞信宣传力度,提高用户体验等。  关键词 飞信 即时通讯 移动互联网 中国移动  中图分类号:TP393.01 文献标识码:A  移动互联网时代,各运营商、网络公司争相抢占移动互联网市场。飞信自2007
摘 要 火力电厂以燃煤为主,其烟尘排放量大、废弃物多、污染大而成为烟尘污染的最主要来源。带式输送机是电厂输煤系统广泛使用的运输设备,在输煤皮带转载处,粉尘会向工作区逸散。文章就此探讨了带式输送机的除尘系统设计。  关键词 粉尘 带式输送机 除尘系统  中图分类号:TH132 文献标识码:A  环境中有害物质的产生主要有两个来源,其一:自然过程产生的有害物质。一般通过大气的自净作用可以消除;其二:人