基于数字校园数据平台的数据仓库

来源 :陕西教育·高教版 | 被引量 : 0次 | 上传用户:Ling_Hun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘要]随着社会的进步,信息技术的发展,高校也在不断地采用新的管理理念、信息手段来代替传统方式,整合资源、提高效率。数字化校园的建设成果更是把信息技术融合到学校的管理教学当中,并且对现有体制、组织、方式、资源进行有效合理地重组和改革。在此过程中积累了大量的信息数据,如何合理有效地利用现有的教学、管理信息,更好的为学校的科研、教学、决策提供有力的支持,如何克服“数据爆炸、知识贫乏”的窘迫局面?传统的面向数据操作的数据库已经不能满足发展的需要 ,数据仓库工程应运而生 ,它是体系结构化环境的核心 ,是决策支持系统 ( DSS)处理的基础。完整的数据仓库主要包括数据仓库技术、联机分析处理技术 ( Online Analytical Processing,简称 OLAP)和数据挖掘技术(Data Mining)。
  [关键词]数字校园 数据平台 数据仓库工程
  
  数字化校园建设中数据仓库的架构
  
  数字化校园的构成可以用图1表示,计算机网络是数字化校园的基础设施;网络基本服务是数字信息流动的基础,包括电子邮件、文件传输、域名服务、身份认证、目录服务等;在此基础上要建立各类基于网络的数据仓库,包括职能信息库、课程资源库、数字化图书资源等;应用支撑系统包括办公自动化系统、各类管理信息系统、网络教学系统以及数字图书馆管理系统等等;在此之上的信息服务系统是校内用户的主要使用界面,为师生提供各种服务,如信息交流、信息查询、决策支持、电子商务等。五个区域分别表示数字化学习环境的功能领域:组织管理、教学活动、学术研究、公共服务和学校社区服务等,各个功能领域之间是密切相关、相互促进的。
  
  图1
  
  以选课系统为例解析数据仓库的构建与应用
  
  数据挖掘,又称为数据库中的知识发现(Knowledge Discovery in Database,简称KDD),是指从大型数据库中提取人们感兴趣的信息,提取的知识表示为概念(Concepts)、规则(Rules)、规律(Regularities)、模式(Pattems)等形式。数据挖掘可以应用于各个领域,包括商务管理、生产控制、市场分析、工程设计和科学探索等。利用数据挖掘技术,挖掘选课系统中积累的有用信息,可以使学校的相关部门有弹性地调节所开的课程,调整热门课程和冷门课程的人数,调节相关课程的学分,通过选课率及相关信息做出正确决策,鼓励和引导学生选择互补的课程,这有利于学生整体素质的提高,也有利于教师、教室等资源的合理分配。
  1.确定数据仓库和OLAP模型
  OLAP(Online Analytical Mining或OLAP Mining)是基于数据仓库的信息分析处理过程,其基本特点是能够从多种角度对从原始数据中转化出来的信息进行快速、一致、交互地处理,从中获得对数据更深入地了解。OLAM将二者结合起来,发展一种建立在OLAP和数据仓库基础上的新的挖掘技术,它兼有OLAP多维分析的在线性、灵活性和数据挖掘对数据处理的深入性,是数据库应用工具未来发展的方向之一。
  通常要先分析原有业务数据库,确定待建的数据仓库主题。再根据用户的需求来确定各个级别数据仓库的存储主题。这里选取学生选课管理这一典型业务为主题。为了保证数据的正确性和一致性,还要确保这些数据是按同样的方法记录的同一件事情,需要对选课的原始数据进行预处理,转换成适合数据挖掘的数据。数据预处理(Data preprocessing)包括三个步骤:数据清理(Data cleaning)、数据集成(Data integration)和数据变换(Data transformation)。完成数据的预处理之后,便可确定待建的数据仓库模型,实现OLAP建模,生成多维数据集(CUBE)。可以建立以ROLAP方式存储的选课数目分析多维数据集(以时间维、学号维、院系专业维为维度,选课数目为度量值)、选课学分分析多维数据集(以课程类别维、课程开课部门维、学号学历维为维度,学分为度量值)等许多个不同的多维数据立方体。
  2.数据挖掘关联算法的实现
  关于关联规则的挖掘算法主要有循环式扫描算法、增量式更新算法、并行挖掘算法、元模式制导、基于约束挖掘等等。目前大多数研究集中在频繁数据项的挖掘方法上。其中比较典型的关联规则挖掘算法有Apriori算法和FP-growth算法。
  Apriori算法可以产生相对较小的候选项目集,扫描数据库的次数由最大频繁项目集的项目数决定。因此,该算法适合于最大频繁项目集相对较小的数据集中的关联规则挖掘问题。针对Apriori算法框架的缺陷,Han.JW(韩家炜)等人提出了FP-tree结构和相应的P-growth算法。FP-growth算法采用的是分而治之的策略,即在经过了第一次扫描之后,把数据库中的频繁集压缩进一棵频繁模式树(FP-tree),同时依然保留其中的关联信息。随后再将FP-tree分化成一些条件库,每个库和一个长度为1的频集相关;然后再对这些条件库分别进行挖掘。当原始数据量很大时,也可以结合划分的方法,使得一个FP-tree可以放入主存中。实验表明,FP-growth对不同长度的规则都有很好的适应性,同时在效率上较之Apriori算法有巨大的提高。由于高校多年来存储的选课数据量较大,故选用FP-growth方法实现高校选课系统的关联规则挖掘较合适。
  作者单位:陕西科技大学网络管理中心
其他文献
清光绪三十三年(1907),沪上<小说林>创刊,至次年停刊.其第一期至第四期、第六期、第八期、第六期凡七期,连载蛮<小说小话>.第三期、第四期、第六期、第八期之<小说小话>,著录
医学电子学是联系电子和医学学科的交叉课程,对于医学院校的学生来说,具有一定的抽象性和难度。在传统的教学中,学生完全处于一种被动的接受状态之中,很难激活学生的思维,引发学生的兴趣,教学效果很难得到明显的提高。  在教学中,尝试采用平等的对话,理解的交往,重新塑造师生关系。改变对学生的知识灌输为智能开发,化学生的消极被动为积极主动,变知识的单向传递为双向传递,化教师的权威意识为民主意识,变封闭课堂为开
VFP是数据库的基础课程,有着数据库应用领域广,种类繁多的特点。同时与VB(或VC)程序开发设计有着密切的联系,是动态网页设计的基础,更是网络数据库SQL必不可少的前导课程之一,因此,是
在新形式下,如何应用科学理论促进体育教学,怎样结合体育特点发展学生智力,进一步改革、充实和提高体育教学方式呢?    以科学理论促进体育教学的优越性    1.促使体育教师进一步学科学、用科学,有利于体育师资队伍的建设。长期以来,我们有相当一部分体育教师,在学习体育专业之前,文化基础知识就欠佳,学习期间,往往偏重于运动技术。工作后,又忙于熟记动作要领和标准示范,许多人忽视体育理论和技术原理的应用。
[摘要]阐述牛顿第一定律的内容与物体惯性之间的关系。客观现象与主观经验对牛顿第一定律产生的误解。  [关键词]牛顿第一定律 惯性 力 主观经验    牛顿第一运动定律的内容可表述如下:任何物体都保持静止或匀速直线运动状态,直到受到其它物体所作用的力迫使它改变这种状态为止。  关于“牛顿第一运动定律”应明确:物体都有维持静止和做匀速直线运动的趋势,因此物体的运动状态是由它的运动速度决定的,没有外力,