论文部分内容阅读
摘要:针对高等医学院校学生成绩特点,设计了数据仓库模型,并给出了具体的实现方法,该模型的建立可以为教学管理提供决策支持。
关键词:数据仓库;模型设计;学生成绩
中图分类号:TP311文献标识码:A文章编号:1009-3044(2008)21-30408-02
Designing and Modeling of Data Warehouse Based on College Students’ Achievement
DENG Hui, YANG Ying, LAI Si-yu, LIU Xue-mei
(North Sichuan Medical College, Nanchong 637007, China)
Abstract: Data-warehouse model were designed according to the features of college students’ achievement.,and ends up with a practical example.The model can serve teaching management for decision making.
Key words: data warehouse; model design; students’ achievement
1 引言
在高校中,一般都建有庞大的管理信息系统(MIS),并已积累了大量有用的数据,随着信息技术的发展以及高校的扩招,数据库中更是收集了数量庞大的学生学习情况的数据,而这些数据在高校管理决策中的重要性越来越明显。为了进行有效的决策,决策信息不仅需要全面,而且需要完整,即决策者不仅需要当前的数据,还需要过去的历史数据,才能进行各种复杂的分析,以支持决策,因此需要新型的数据存储和处理技术——数据仓库。
2 数据仓库的概念
数据仓库是一个为决策支持系统和联机分析处理提供数据源的结构化数据环境。数据仓库概念始于上世纪80年代中期,首次出现是在W.H.Inmon 的《Building the Data Warehousing》一书中,他本人也因此被誉为“数据仓库之父”。他在书中给数据仓库下的定义为:“数据仓库是为支持管理决策建立的、面向主题的、综合的、稳定的、随时间变化的数据集合。”目前数据仓库被认为是解决信息技术在发展中一方面拥有大量数据,另一方面有用信息却很贫乏这种不正常现象的综合解决方案,数据仓库具有以下特征:1) 面向主题。主题是在较高层次上对数据进行综合归类的一个抽象的概念。按照主题组织数据,能够在较高层次上对分析对象的数据提供一个完整的、一致的描述,能够统一表示分析对象所涉及的各种数据及数据间的联系;2) 集成的。为了创建一个有效的主题域,必须将这些来自不同数据源的数据集成起来,使之遵循统一的编码规则。因此,数据仓库在提取数据时必须经过数据集成,消除源数据中的矛盾,并进行数据综合和计算。经过数据集成后,数据仓库所提供的信息比数据库提供的信息更概括、更本质;3) 稳定的。数据仓库的这种稳定性指的是数据仓库中的数据主要供决策分析之用,决策人员所涉及的操作主要是数据查询,一般不进行修改操作,即数据仓库的数据对最终用户来说是只读的;4) 时变的。数据仓库中的这些数据需要随时间的变化而定期更新。
3 高校学生成绩数据仓库设计建模
3.1 需求分析
需求分析就是分析用户的需求是什么?经过对学校师生的调查和分析,得到了下面的需求结果:1) 能够针对每一个学生做成绩分析;2) 能够针对每一门课程做成绩分析;3) 能够针对每个年级的学生做成绩分析;4) 能够针对多门课程做相关性分析。
针对上面的需求结果做一些归纳的工作,我们将分析点归结为下面四大类:学生;课程;教师;时间。其中学生除了可以做单个学生的分析之外,还可以以班级、专业、年级,学院来做分析,他们是具有层次的关系。课程可以以单一课程来分析,也可以按性质来分析。时间一定是一项维度数据,它具有先天的层次关系,我们的需求是学期、学年。
一般而言,可以通过两种技术实现数据仓库。一种是将数据仓库模型构造为多维数组。该情况下数据的存储格式类似于展现给用户的格式。另一种更常用的方法是用关系模型存放数据仓库数据,并调用关系数据库引擎将数据以多维格式展现给用户。在此我们选择一种常用的关系型建模技术——星型模式。
3.2 数据建模
我们的系统是建立在一个原有的学生成绩管理系统之上,这个系统已按业务处理需求建立起了学生、考试、课程、教师、时间等管理子系统。按照应用的要求,在数据库中建立了许多张表,其中最主要的有以下几个:
学生表(学号、姓名、性别、班级、专业、所属学院、入学时间)
课程表(课程编号、课程名称、课程性质)
教师表(教师编号、教师姓名、教师职称、所属部门、教师学历、教师年龄)
时间表(时间主键、学期、学年、年级、考试时间)
考试表(课程编号、学号、考试成绩、授课教师、考试时间、考试性质)
从以上信息中我们可以进一步得到星型逻辑模型(如图1)。根据此星型逻辑模型,再结合SQL Server 2000,设计事实表和维表。
3.3 建立事实表和维表
在建立事实表和维表之前,首先得决定哪些是事实数据,哪些是维度数据。在高校的OLTP系统中字段众多,我们可以通过下面的步骤来查看所有的字段,并决定哪些是事实数据,哪些是维度数据:1) 在整个OLTP系统中搜索最基本的记录,它们极有可能是事实数据;2) 决定搜索每一事实数据的关键字段,它们极可能是维度数据;3) 检验每一可能事实数据,确定它不是嵌入在事实数据中的维度数据;4)检验每一可能维度数据,确定它不是嵌入在维度数据中的事实数据。
在事实表中除了事实数据外,还包含有连接维度的外键字段,就我们的事实表而言,事实表应包含学号、课程、授课教师、考试时间以及考试性质(如表1)。
SQL语句:
SELECT s.学号, c.课程编号, t.教师编号, q.考试性质, d.考试时间, d.考试成绩
FROM 学生表 s,课程表 c,教师表 t,考试表 q,考试时间表 d,考试表 d
WHERE q.学号=s.学号 AND q.课程编号=c.课程编号 AND q.教师编号=t.教师编号
我们利用SQL Server2000建立学生成绩数据仓库(图2)。
4 结束语
综上所述,数据仓库的构建是一个非常复杂的过程,各个高等医学院校只有根据自身的实际情况,选择合适的数
据仓库解决方案,才能为高等医学院校的教学管理提供决策支持。
参考文献:
[1] Jiawei Han. Micheline Kamber Data Mining: Concepts and Techniques[M]. Morgan Kaufmann Publishers,Inc, 2001.
[2] Paulraj Ponniah. Data Warehousing Fundamentals[M]. John Wiley
关键词:数据仓库;模型设计;学生成绩
中图分类号:TP311文献标识码:A文章编号:1009-3044(2008)21-30408-02
Designing and Modeling of Data Warehouse Based on College Students’ Achievement
DENG Hui, YANG Ying, LAI Si-yu, LIU Xue-mei
(North Sichuan Medical College, Nanchong 637007, China)
Abstract: Data-warehouse model were designed according to the features of college students’ achievement.,and ends up with a practical example.The model can serve teaching management for decision making.
Key words: data warehouse; model design; students’ achievement
1 引言
在高校中,一般都建有庞大的管理信息系统(MIS),并已积累了大量有用的数据,随着信息技术的发展以及高校的扩招,数据库中更是收集了数量庞大的学生学习情况的数据,而这些数据在高校管理决策中的重要性越来越明显。为了进行有效的决策,决策信息不仅需要全面,而且需要完整,即决策者不仅需要当前的数据,还需要过去的历史数据,才能进行各种复杂的分析,以支持决策,因此需要新型的数据存储和处理技术——数据仓库。
2 数据仓库的概念
数据仓库是一个为决策支持系统和联机分析处理提供数据源的结构化数据环境。数据仓库概念始于上世纪80年代中期,首次出现是在W.H.Inmon 的《Building the Data Warehousing》一书中,他本人也因此被誉为“数据仓库之父”。他在书中给数据仓库下的定义为:“数据仓库是为支持管理决策建立的、面向主题的、综合的、稳定的、随时间变化的数据集合。”目前数据仓库被认为是解决信息技术在发展中一方面拥有大量数据,另一方面有用信息却很贫乏这种不正常现象的综合解决方案,数据仓库具有以下特征:1) 面向主题。主题是在较高层次上对数据进行综合归类的一个抽象的概念。按照主题组织数据,能够在较高层次上对分析对象的数据提供一个完整的、一致的描述,能够统一表示分析对象所涉及的各种数据及数据间的联系;2) 集成的。为了创建一个有效的主题域,必须将这些来自不同数据源的数据集成起来,使之遵循统一的编码规则。因此,数据仓库在提取数据时必须经过数据集成,消除源数据中的矛盾,并进行数据综合和计算。经过数据集成后,数据仓库所提供的信息比数据库提供的信息更概括、更本质;3) 稳定的。数据仓库的这种稳定性指的是数据仓库中的数据主要供决策分析之用,决策人员所涉及的操作主要是数据查询,一般不进行修改操作,即数据仓库的数据对最终用户来说是只读的;4) 时变的。数据仓库中的这些数据需要随时间的变化而定期更新。
3 高校学生成绩数据仓库设计建模
3.1 需求分析
需求分析就是分析用户的需求是什么?经过对学校师生的调查和分析,得到了下面的需求结果:1) 能够针对每一个学生做成绩分析;2) 能够针对每一门课程做成绩分析;3) 能够针对每个年级的学生做成绩分析;4) 能够针对多门课程做相关性分析。
针对上面的需求结果做一些归纳的工作,我们将分析点归结为下面四大类:学生;课程;教师;时间。其中学生除了可以做单个学生的分析之外,还可以以班级、专业、年级,学院来做分析,他们是具有层次的关系。课程可以以单一课程来分析,也可以按性质来分析。时间一定是一项维度数据,它具有先天的层次关系,我们的需求是学期、学年。
一般而言,可以通过两种技术实现数据仓库。一种是将数据仓库模型构造为多维数组。该情况下数据的存储格式类似于展现给用户的格式。另一种更常用的方法是用关系模型存放数据仓库数据,并调用关系数据库引擎将数据以多维格式展现给用户。在此我们选择一种常用的关系型建模技术——星型模式。
3.2 数据建模
我们的系统是建立在一个原有的学生成绩管理系统之上,这个系统已按业务处理需求建立起了学生、考试、课程、教师、时间等管理子系统。按照应用的要求,在数据库中建立了许多张表,其中最主要的有以下几个:
学生表(学号、姓名、性别、班级、专业、所属学院、入学时间)
课程表(课程编号、课程名称、课程性质)
教师表(教师编号、教师姓名、教师职称、所属部门、教师学历、教师年龄)
时间表(时间主键、学期、学年、年级、考试时间)
考试表(课程编号、学号、考试成绩、授课教师、考试时间、考试性质)
从以上信息中我们可以进一步得到星型逻辑模型(如图1)。根据此星型逻辑模型,再结合SQL Server 2000,设计事实表和维表。
3.3 建立事实表和维表
在建立事实表和维表之前,首先得决定哪些是事实数据,哪些是维度数据。在高校的OLTP系统中字段众多,我们可以通过下面的步骤来查看所有的字段,并决定哪些是事实数据,哪些是维度数据:1) 在整个OLTP系统中搜索最基本的记录,它们极有可能是事实数据;2) 决定搜索每一事实数据的关键字段,它们极可能是维度数据;3) 检验每一可能事实数据,确定它不是嵌入在事实数据中的维度数据;4)检验每一可能维度数据,确定它不是嵌入在维度数据中的事实数据。
在事实表中除了事实数据外,还包含有连接维度的外键字段,就我们的事实表而言,事实表应包含学号、课程、授课教师、考试时间以及考试性质(如表1)。
SQL语句:
SELECT s.学号, c.课程编号, t.教师编号, q.考试性质, d.考试时间, d.考试成绩
FROM 学生表 s,课程表 c,教师表 t,考试表 q,考试时间表 d,考试表 d
WHERE q.学号=s.学号 AND q.课程编号=c.课程编号 AND q.教师编号=t.教师编号
我们利用SQL Server2000建立学生成绩数据仓库(图2)。
4 结束语
综上所述,数据仓库的构建是一个非常复杂的过程,各个高等医学院校只有根据自身的实际情况,选择合适的数
据仓库解决方案,才能为高等医学院校的教学管理提供决策支持。
参考文献:
[1] Jiawei Han. Micheline Kamber Data Mining: Concepts and Techniques[M]. Morgan Kaufmann Publishers,Inc, 2001.
[2] Paulraj Ponniah. Data Warehousing Fundamentals[M]. John Wiley