论文部分内容阅读
摘 要: 近年来,在数字化校园建设中,以数据服务为核心,为不同角色提供人性化信息服务,以及为学校发展提供决策支持的需求应运而生。而单一的统一数据库在应用系统和业务规模扩大时其应用查询效率较低,为此设计出一种新的数字化校园数据架构,将数据交换库与共享数据库分离,使数据存放更为有效,从而提高查询效率。从理论上和技术上对新的数据架构进行了可行性分析。新的数据架构能够较好地满足数字化校园建设中的新需求。
关键词: 数字化校园; 数据集成; 数据挖掘; 数据服务
中图分类号:TP393 文献标志码:A 文章编号:1006-8228(2013)10-78-03
0 引言
随着计算机技术的迅速发展和校园网信息化建设的进一步深入,高校数字化校园建设实现了不同业务系统之间数据资源的共享,各个“信息孤岛”的有机集成,提高了校园网的运作效率[1-2]。然而教育信息化开始进入了资源集成时期,高校如何对信息资源进行规划、设计、组织和控制,实现“以用户为核心的结构化信息资源组织结构”,为每个人提供最人性化的信息服务,为学校发展提供决策支持,是当今校园网信息化发展的追切需求。
校园数据中心的建立是数字化校园建设中的重要环节。在有关高校管理信息系统的论文中有很多是关于数据中心的研究,如刘星晔的《加强高校管理信息系统的数据共享与利用》[3]一文中指出了目前高校管理信息系统存在的问题,强调了高校管理信息系统的数据共享与利用的重要性,并进行了简单的实例分析。宋颖的《数字化校园建设的研究》[4]对数字化校园建设过程中数据应用与交换平台问题展开相应的研究。王培雷的《高校数字化校园平台的研究与设计》[5]对高校数字化校园平台的设计做出详细分析,在建设内容、数字共享方面提出了明确的设计思路。可以发现,其研究重点是建立一个统一的数据库,各应用系统之间的数据交换以此为桥梁,实现学校范围的数据共享、数据一致性,并在统一数据库的基础上建立面向教职工、学生的应用模块及校级决策分析模块。
然而,在建设中,以统一数据库为基础的应用存在两点不足:①当底层业务系统有大量数据更新入统一数据库时,基于统一数据库的应用查询效率很低;②统一数据库的数据表是各个业务系统数据库表的映射,没有对数据进行梳理及按主题存放,数据来源分散。对此,本文设计出了一种新的数字化校园数据架构:把数据的抽取分成了两个步骤,第一步是从数据源到数据交换库的数据抽取,第二步是数据交换库到按主题存放的共享数据库的再次抽取。共享数据库的数据是对数据交换库的数据进行进一步的抽取和分类,主要面向数据查询的集成,不涉及数据交换。
1 相关技术研究
1.1 基于ETL的数据集成
基于ETL数据集成的方式,可以看作主要由数据抽取和数据转换整合两部分组成。
1.1.1 数据抽取
在现有的各个业务系统中,数据信息分散地存储在各不同的数据库中,数据交换库的数据需要从这些数据源中采集,而由于各数据源采用的数据库类型不同,存储数据的标准也不同,因此必须经过处理之后才能装载到数据交换库。数据交换库到共享数据库又是一次数据抽取过程,在这次数据抽取过程中,要对数据进行梳理、分类和归纳并按主题存放。在数据抽取过程中会遇到很多的问题,主要包括以下几点。
⑴ 数据来源不同,需要采集数据的相关工具应能够支持各种异构数据源。
⑵ 不同数据库支持的数据类型有差异,因此选择的工具应具有字段映射功能,能够将抽取的数据类型转换为目标格式。
⑶ 从不同的数据源进行数据抽取,会有很多的冗余数据,因此需要根据需求进行相关处理。
1.1.2 数据转换与整合
数据转换与整合需根据系统分析和构建需求,通过数据过滤、数据转换等操作,将整合之后的数据装载到共享数据库。
1.2 校园信息的数据挖掘
随着高校信息化实践的大量开展,相应的基础设施和业务系统中已积累了海量数据。而从沉淀的数据中发现有价值的信息,深入挖掘、综合利用、转化为知识,才是业务系统真正价值的体现。
数据挖掘技术用于分析存在于数据库中的隐含的、有意义的数据从而发现新的关联关系,它能实现多种功能,如:自动预测趋势和行为、数据关联分析、概念描述、偏差检测等[6]。通过业务和数据理解、数据建模、模型评估及部署等步骤,通过服务器内部的数据统计、多维分析(OLAP)、SPSS等技术和各类分类预测以及描述方法,实现大量数据关联。
数据挖掘和分析是建立长效机制,实施校园管理的重要手段[7-9],加强数据分析应用是管理的必然趋势,其可为校管理者的科学决策提供重要的参考依据,帮助学校各部门精准服务,提高师生满意度。
2 数字化校园数据架构设计
在数字化校园建设的分步实施中,各个职能部门先后建立了多个业务系统,各个业务系统相应的数据库也都有了一定的数据积累,接下来如何为师生等不同角色提供人性化的信息服务,如何对这些分散的数据进行处理并为高校的管理和决策服务,成为高校信息化发展的需求[10-14]。在应用系统和业务规模扩大后,基于单一的统一数据库所建立的应用会带来效率问题,因此我们设计出了一种以数据服务为核心的新的数据架构,如图1及图2所示。
在新的数字化校园的数据架构中,数据的抽取自然地分成了两个步骤。第一步是从数据源到数据交换库的数据抽取;第二步是数据交换库到主题数据库或OLAP数据库的再次抽取。
⑴ 第一层次的数据抽取主要针对数据源层,将数据源层数据抽取到数据交换库中,这个过程只用于数据交换,不涉及全局的查询。
⑵ 第二层次的数据抽取主题针对数据交换库,它是对数据交换库的数据进行进一步的抽取和分类,主要面向数据查询的集成和应用展示,不涉及数据交换。 第一层次是第二层次的基础和准备阶段。在两个集成过程中,数据交换库具有承上启下的关键性作用,是整个数字化校园系统数据层建模和数据运转的中心。
3 可行性分析
理论上的可行性分析:在新的数据架构中,数据交换库只用于底层业务系统之间数据的交换与共享,共享数据库为上层的应用提供数据服务,共享数据库与数据交换库的分离,能够克服大量数据更新时,单一的统一数据库应用查询效率低的不足;新的数据架构以数据服务为核心,着重突出资源的集中和共享,通过对数据交换库中数据的梳理、贯通、整合和重组,将分散的数据按主题存放在共享数据库中,数据存储更为有效,理论上是可行的。
技术上的可行性分析:在新的架构中,数据集成与数据分析展示是数字化校园建设的重要内容,数据集成解决数据的异构性问题,统一数据格式,保证数据的一致性,使不同应用系统中的数据能够相互交流。通过ETL技术能够实现不同业务系统之间数据的提取、传输和加载等操作,目前有较多成熟的工具可供选择,如商业的Datastage、Powercenter、DataStage、ODI(Oracle Data Integrator)、SSIS(微软SQL Server Integration Service),开源的Kettle等。在数据分析展示方面也有一些成熟的工具可供使用,如QlikView、Tableau等。综上可知,从技术层面上也是可行的。
4 结束语
本文分析了数字化校园建设的现状,对数字化校园建设中的一些关键技术进行了研究。设计出一种新的数据架构,将数据交换库与共享数据库分离,对数据交换库的数据进行梳理并按主题存放在共享数据库中,共享数据库用于提供数据服务,数据交换库只用于底层业务系统之间数据的交换。对新数据架构进行了理论上和技术上的可行性分析,可知,新的共享数据库的建立能够克服单一的统一数据库应用查询效率低的不足,较好地满足了为不同角色提供人性化信息服务及为学校发展提供决策支持的需求。
参考文献:
[1] 张学旺,汪林林,马中峰.数字化校园综合应用软件平台的关键技术[J].计算机工程,2007.33(23):267-268
[2] 李培峰,朱巧明.基于Web服务的校园信息化平台的设计和实现[J].计算机工程与设计,2006.27(19):3564-3566
[3] 刘星晔.加强高校管理信息系统的数据共享与利用[J].教育信息化,2005.6:43-44
[4] 宋颖.数字化校园建设的研究[J].硅谷,2012.8:94-95
[5] 王培雷.高校数字化校园平台的研究与设计[J].价值工程,2013.3:191-192
[6] 刘同明等.数据挖掘技术及其应用[M].国防工业出版社,2001.
[7] 邝涛.数据挖掘技术在高校教务管理系统中的应用研究[D].郑州大学,2011.
[8] 汤正华.基于Web Service的数字化校园的设计实现[D].山东师范大学,2012.
[9] 唐敏.湖南大学数字化校园建设项目规划设计与实现研究[D].湖南大学,2010.
[10] 赵佳.河北师范大学公共数据库平台研究与设计[D].河北师范大学,2010.
[11] 刘向东.基于J2EE的数字化校园应用框架[D].中南大学,2011.
[12] 李荣.数字化校园统一数据集成研究与实现[D].中国海洋大学,2011.
[13] 陆怀平.面向服务的数字化校园数据交换平台的设计与实现[D].兰州大学,2009.
[14] 马晓.数字化校园信息平台设计与研究[D].长安大学,2012.
关键词: 数字化校园; 数据集成; 数据挖掘; 数据服务
中图分类号:TP393 文献标志码:A 文章编号:1006-8228(2013)10-78-03
0 引言
随着计算机技术的迅速发展和校园网信息化建设的进一步深入,高校数字化校园建设实现了不同业务系统之间数据资源的共享,各个“信息孤岛”的有机集成,提高了校园网的运作效率[1-2]。然而教育信息化开始进入了资源集成时期,高校如何对信息资源进行规划、设计、组织和控制,实现“以用户为核心的结构化信息资源组织结构”,为每个人提供最人性化的信息服务,为学校发展提供决策支持,是当今校园网信息化发展的追切需求。
校园数据中心的建立是数字化校园建设中的重要环节。在有关高校管理信息系统的论文中有很多是关于数据中心的研究,如刘星晔的《加强高校管理信息系统的数据共享与利用》[3]一文中指出了目前高校管理信息系统存在的问题,强调了高校管理信息系统的数据共享与利用的重要性,并进行了简单的实例分析。宋颖的《数字化校园建设的研究》[4]对数字化校园建设过程中数据应用与交换平台问题展开相应的研究。王培雷的《高校数字化校园平台的研究与设计》[5]对高校数字化校园平台的设计做出详细分析,在建设内容、数字共享方面提出了明确的设计思路。可以发现,其研究重点是建立一个统一的数据库,各应用系统之间的数据交换以此为桥梁,实现学校范围的数据共享、数据一致性,并在统一数据库的基础上建立面向教职工、学生的应用模块及校级决策分析模块。
然而,在建设中,以统一数据库为基础的应用存在两点不足:①当底层业务系统有大量数据更新入统一数据库时,基于统一数据库的应用查询效率很低;②统一数据库的数据表是各个业务系统数据库表的映射,没有对数据进行梳理及按主题存放,数据来源分散。对此,本文设计出了一种新的数字化校园数据架构:把数据的抽取分成了两个步骤,第一步是从数据源到数据交换库的数据抽取,第二步是数据交换库到按主题存放的共享数据库的再次抽取。共享数据库的数据是对数据交换库的数据进行进一步的抽取和分类,主要面向数据查询的集成,不涉及数据交换。
1 相关技术研究
1.1 基于ETL的数据集成
基于ETL数据集成的方式,可以看作主要由数据抽取和数据转换整合两部分组成。
1.1.1 数据抽取
在现有的各个业务系统中,数据信息分散地存储在各不同的数据库中,数据交换库的数据需要从这些数据源中采集,而由于各数据源采用的数据库类型不同,存储数据的标准也不同,因此必须经过处理之后才能装载到数据交换库。数据交换库到共享数据库又是一次数据抽取过程,在这次数据抽取过程中,要对数据进行梳理、分类和归纳并按主题存放。在数据抽取过程中会遇到很多的问题,主要包括以下几点。
⑴ 数据来源不同,需要采集数据的相关工具应能够支持各种异构数据源。
⑵ 不同数据库支持的数据类型有差异,因此选择的工具应具有字段映射功能,能够将抽取的数据类型转换为目标格式。
⑶ 从不同的数据源进行数据抽取,会有很多的冗余数据,因此需要根据需求进行相关处理。
1.1.2 数据转换与整合
数据转换与整合需根据系统分析和构建需求,通过数据过滤、数据转换等操作,将整合之后的数据装载到共享数据库。
1.2 校园信息的数据挖掘
随着高校信息化实践的大量开展,相应的基础设施和业务系统中已积累了海量数据。而从沉淀的数据中发现有价值的信息,深入挖掘、综合利用、转化为知识,才是业务系统真正价值的体现。
数据挖掘技术用于分析存在于数据库中的隐含的、有意义的数据从而发现新的关联关系,它能实现多种功能,如:自动预测趋势和行为、数据关联分析、概念描述、偏差检测等[6]。通过业务和数据理解、数据建模、模型评估及部署等步骤,通过服务器内部的数据统计、多维分析(OLAP)、SPSS等技术和各类分类预测以及描述方法,实现大量数据关联。
数据挖掘和分析是建立长效机制,实施校园管理的重要手段[7-9],加强数据分析应用是管理的必然趋势,其可为校管理者的科学决策提供重要的参考依据,帮助学校各部门精准服务,提高师生满意度。
2 数字化校园数据架构设计
在数字化校园建设的分步实施中,各个职能部门先后建立了多个业务系统,各个业务系统相应的数据库也都有了一定的数据积累,接下来如何为师生等不同角色提供人性化的信息服务,如何对这些分散的数据进行处理并为高校的管理和决策服务,成为高校信息化发展的需求[10-14]。在应用系统和业务规模扩大后,基于单一的统一数据库所建立的应用会带来效率问题,因此我们设计出了一种以数据服务为核心的新的数据架构,如图1及图2所示。
在新的数字化校园的数据架构中,数据的抽取自然地分成了两个步骤。第一步是从数据源到数据交换库的数据抽取;第二步是数据交换库到主题数据库或OLAP数据库的再次抽取。
⑴ 第一层次的数据抽取主要针对数据源层,将数据源层数据抽取到数据交换库中,这个过程只用于数据交换,不涉及全局的查询。
⑵ 第二层次的数据抽取主题针对数据交换库,它是对数据交换库的数据进行进一步的抽取和分类,主要面向数据查询的集成和应用展示,不涉及数据交换。 第一层次是第二层次的基础和准备阶段。在两个集成过程中,数据交换库具有承上启下的关键性作用,是整个数字化校园系统数据层建模和数据运转的中心。
3 可行性分析
理论上的可行性分析:在新的数据架构中,数据交换库只用于底层业务系统之间数据的交换与共享,共享数据库为上层的应用提供数据服务,共享数据库与数据交换库的分离,能够克服大量数据更新时,单一的统一数据库应用查询效率低的不足;新的数据架构以数据服务为核心,着重突出资源的集中和共享,通过对数据交换库中数据的梳理、贯通、整合和重组,将分散的数据按主题存放在共享数据库中,数据存储更为有效,理论上是可行的。
技术上的可行性分析:在新的架构中,数据集成与数据分析展示是数字化校园建设的重要内容,数据集成解决数据的异构性问题,统一数据格式,保证数据的一致性,使不同应用系统中的数据能够相互交流。通过ETL技术能够实现不同业务系统之间数据的提取、传输和加载等操作,目前有较多成熟的工具可供选择,如商业的Datastage、Powercenter、DataStage、ODI(Oracle Data Integrator)、SSIS(微软SQL Server Integration Service),开源的Kettle等。在数据分析展示方面也有一些成熟的工具可供使用,如QlikView、Tableau等。综上可知,从技术层面上也是可行的。
4 结束语
本文分析了数字化校园建设的现状,对数字化校园建设中的一些关键技术进行了研究。设计出一种新的数据架构,将数据交换库与共享数据库分离,对数据交换库的数据进行梳理并按主题存放在共享数据库中,共享数据库用于提供数据服务,数据交换库只用于底层业务系统之间数据的交换。对新数据架构进行了理论上和技术上的可行性分析,可知,新的共享数据库的建立能够克服单一的统一数据库应用查询效率低的不足,较好地满足了为不同角色提供人性化信息服务及为学校发展提供决策支持的需求。
参考文献:
[1] 张学旺,汪林林,马中峰.数字化校园综合应用软件平台的关键技术[J].计算机工程,2007.33(23):267-268
[2] 李培峰,朱巧明.基于Web服务的校园信息化平台的设计和实现[J].计算机工程与设计,2006.27(19):3564-3566
[3] 刘星晔.加强高校管理信息系统的数据共享与利用[J].教育信息化,2005.6:43-44
[4] 宋颖.数字化校园建设的研究[J].硅谷,2012.8:94-95
[5] 王培雷.高校数字化校园平台的研究与设计[J].价值工程,2013.3:191-192
[6] 刘同明等.数据挖掘技术及其应用[M].国防工业出版社,2001.
[7] 邝涛.数据挖掘技术在高校教务管理系统中的应用研究[D].郑州大学,2011.
[8] 汤正华.基于Web Service的数字化校园的设计实现[D].山东师范大学,2012.
[9] 唐敏.湖南大学数字化校园建设项目规划设计与实现研究[D].湖南大学,2010.
[10] 赵佳.河北师范大学公共数据库平台研究与设计[D].河北师范大学,2010.
[11] 刘向东.基于J2EE的数字化校园应用框架[D].中南大学,2011.
[12] 李荣.数字化校园统一数据集成研究与实现[D].中国海洋大学,2011.
[13] 陆怀平.面向服务的数字化校园数据交换平台的设计与实现[D].兰州大学,2009.
[14] 马晓.数字化校园信息平台设计与研究[D].长安大学,2012.