论文部分内容阅读
摘 要:在高等教育快速发展的今天,学校教学质量的自我监控成为科学管理的重要保证。本文结合高校普遍使用的网络平台,使用数据挖掘技术对数据进行分析抽取,建立四维数据库,采用联机分析处理(OLAP)技术对数据进行分析处理,为教学提供支持。
关键词:教学质量监控 联机分析处理 数据挖掘
中图分类号:TP393.08 文献标识码:A 文章编号:1673-8454(2008)13-0083-03
目前普通高校教学质量监控活动主要存在以下问题:(1)很多高校内部并没有专门的教学质量监控决策机构,其规划决策主要由分管教学的校长和教务处有关领导负责。这种决策往往受限于个别领导成员的思维方式,常常带有较为浓重的主观色彩,尤其是在教育管理活动日趋复杂化的今天,很难确保教学管理决策的科学性和合理性。(2)由于高校规模的迅速扩大,仅仅依靠教务部门将很难对全校范围内的整个教学过程实施全面而有效的监督。因此,要保证教学过程和管理工作的质量,必须设置一个教学质量自动监控系统,这样既保证了教学工作的客观性和有效性,也能使教务管理部门有效提高教务管理工作的水平。因此,为了提高学校教学管理决策的科学性和合理性,提高教学评价工作的独立性和客观性,利用现代网络平台,采用数据挖掘中的联机分析处理(OLAP)技术开发适合当今高校的教学质量自动监控系统,对学校在教学中可能出现的各种问题进行量化分析,并得出结论,为高校的发展起到了一定的促进作用。
一、OLAP相关概念
维(Dimension):是人们观察数据的特定角度。例如用户常从时间的角度来观察产品的销售,此时时间就是一个维(时间维)。
维层次(Dimension Hierarchy):用于描述用户观察的不同细节程度数据的角度。例如,描述时间维时,可以有日期、月份、季度、年等不同层次。
多维数据集也称为立方体,它可以用一个多维数组来表示。对OLAP的多维分析是指对多维数据集中的数据进行向上综合、向下查询、旋转、视角变换等方式分析数据。
二、基于OLAP的数据挖掘技术
基于OLAP的数据挖掘技术不仅具有挖掘OLAP数据特征的功能,而且还有关联、分类、制图、聚类和排序等其他数据挖掘功能。在教学质量监控系统的研究过程中主要采用以下几种技术:
1.基于OLAP的数据特征和比较
主要是总结和描述一系列与任务相关的数据特征。可借助深化(下钻)或浅化(上卷)技术挖掘多层次的知识。上卷是指从多维数据集中的低层开始层层向上汇总,其间可以选择适当的控制因素。下钻是指从相对高汇总级的多维数据集块向子块或低层钻取。
2.基于OLAP的关联规则挖掘
在数据仓库中,关联规则挖掘可分为维间关联规则挖掘和维内关联规则挖掘。维间关联规则是在不同维之间进行关联规则,而维内关联规则是同一维或者组和其它维所得的关联规则。两种关联的挖掘算法不同。维内关联规则通过将数据关系转化成配套关系,使得共享配套维中相同数值的数组合并成一个。那么,在同一转化中被看作是数据项的配套数组,可以采用Apriori算法进行关联规则的挖掘。同样,还可以采用元规则P(x,y)→Q(x,y,z),其中P,Q是与数据仓库中不同属性关联的预测变量,来定义搜寻规则用于限制搜寻条件。
借助于数据立方结构,能很方便地进行维间关联规则挖掘。数据立方体的计算单元存储了相应的多维数据的许多可能出现的计算,同时,维计算单元又存储着整个维的汇总。基于这种结构,可以直接根据汇总单元的数值关联规则计算规则的支持度和可信度的度量。这样的立方体块集,包括从细节层的汇总到高层的汇总,简化了多个逻辑层上的关联规则挖掘。规则A==> B中支持度和置信度的计算公式如下:
Support(A==>B)=num(A and B)/num(true)*100%
confidenct(A==>B)=num(A and B)/num(A)*100%
其中,num(A)表示数据库中使条件A为真的记录数,num(true)表示数据库中记录总数。使用数据立方技术,此时规则的支持度等于相关单元中的值。
3.基于OLAP的分类
分类方法有许多种,而基于OLAP的分类方法一样可以结合这些方法。它们包括决策树方法、统计方法、神经网络、模糊集等。基于OLAP的分类过程有四个步骤:①建立相关多维数据集,并将训练数据和测试数据进行分类;②分析因素的相关性;③建立分类(决策树);④用测试数据集测试数据分类的有效性。这里我们主要采用SQL Server2000集成在Analysis services中的决策树算法来实现基于OLAP的分类。
4.基于OLAP的聚类
OLAP挖掘与聚类分析集成方式如下:对得到的任意簇可以进一步描述该类的特征,并且可以在选定的类上执行OLAP操作和挖掘算法。或者可以回滚到进行聚类被执行前的某个点,继续对前面选中的多维数据集进行其它特性的探测。
5.回滚和比较挖掘分析
主要是通过回滚来改变挖掘路径。在OLAP挖掘中实施回滚技术方案如下:首先,一个状态矢量被保存在一个回滚栈(如果回滚的模式只是一步一步地简单后退)或一个回滚列表(如果需要对位置进行标记或其它的往返移动模式)里面。与状态矢量相关的立方体也要被保存起来并与向量链接。进行回滚时,上面的队列或者堆栈被用来回滚到适当的状态点。当操作完成时,所有被保存的回滚点以及与之相联系的向量和立方体块都将被删除以释放分配的空间。
三、基于OLAP教学质量监控系统模型设计
1.基于OLAP技术的教学质量监控系统结构(如图1)
以下给出使用OLAP的数据源来创建一个新数据挖掘模型的几个步骤和部分程序代码。
①连接服务器,并选择数据库;
dsoserver.connect“educationMonitorSevrer”
set dsodb=dsoserver.mdstores(“educationMonitor”)
②选取模型的源立方体和所需挖掘的维,设置模型的挖掘算法;
miningalgorithm=“Microsoft_decision_trees”
sourcecube=“mark”
caseDimension=“teacher”
③设置输入列和预测列。
Set dsodb=dsoserver.mdstores(“educationMonitor”)
If not dsodb.miningmodels(“teacherPatternsModelOLAP”) is nothing then
dsodb.miningmodels.remove “teacherPatternsModelOLAP”
end if
set dsodmm=dsodb.miningmodels.addnew(“teacherPatternsModelOLAP,sbclsOlap”)
set dsorole=dsodmm.roles.addnew(“all users”)
‘设置新挖掘模型必要的属性
With dsodmm
datasources.addnew “educationMonitor” , sbclsregular
description=“Analyzes the salaries of teacher”
‘选择模型的算法
miningalgorithm=“Microsoft_decision_trees”
‘设置模型的源立方体mark
sourcecube=“mark”
caseDimension=“teacher”
trainingquery=“”
update
end with
set dsocol=dsodmm.columns(“Tname”)
dsocol.isdisabled=false
‘保存数据挖掘模型
With dsodmm
Last updated=now
update
end with
3.获取所创建的数据挖掘模型信息
数据挖掘模型中的结构层面是通过OLE DB for data-mining provider来展示的。它的结构在存储模式上与关系型数据库表类似,主要存储数据挖掘模型的元数据信息,包括数据库名称、模式名、数据挖掘模型名称等等。此时,用户可以通过应用程序来访问某个决策树模型的节点或者聚类分析模型的聚类中的结构和内容。
四、结语
本文中,我们主要对数据仓库、数据挖掘、OLAP等相关概念做了简要的阐述,完成了基于OLAP技术的教学质量监控系统平台的搭建,实现了教学质量监控部分主题联机分析子系统,并构建了基于OLAP的数据挖掘模型;同时,通过构建基于数据立方体的关联规则挖掘模块的总体结构,给出了部分实例代码。由于教学质量监控系统所涉及的分析主题远远多于数据仓库中已建立的主题,因此,如何满足用户需求的变化和需求的增长仍然是需解决的问题。
参考文献:
[1]鲁正火,郑晓莉,姚舜英.浅谈信息技术应用于高校教学质量监控[J].教育信息化,2006(13):10-11.
[2]孙宏才.层次分析法与决策科学化[M].北京:中国经济出版社,1994.
[3]刘独玉,杨晋浩等.关联规则挖掘研究综述[J].成都大学学报(自然科学版),2006,25(1):54-58.
[4]陈文庆,许棠.关联规则挖掘Apriori算法的改进与实现[J].微机发展,2005,8(15):155-157.
[5]张云涛,龚玲.数据挖掘原理与技术[M].北京:电子工业出版社,2004.25-30.
[6]王树亮,徐亚平.关于教师教学质量测评模型的建立[J].教育信息化,2003(8).
关键词:教学质量监控 联机分析处理 数据挖掘
中图分类号:TP393.08 文献标识码:A 文章编号:1673-8454(2008)13-0083-03
目前普通高校教学质量监控活动主要存在以下问题:(1)很多高校内部并没有专门的教学质量监控决策机构,其规划决策主要由分管教学的校长和教务处有关领导负责。这种决策往往受限于个别领导成员的思维方式,常常带有较为浓重的主观色彩,尤其是在教育管理活动日趋复杂化的今天,很难确保教学管理决策的科学性和合理性。(2)由于高校规模的迅速扩大,仅仅依靠教务部门将很难对全校范围内的整个教学过程实施全面而有效的监督。因此,要保证教学过程和管理工作的质量,必须设置一个教学质量自动监控系统,这样既保证了教学工作的客观性和有效性,也能使教务管理部门有效提高教务管理工作的水平。因此,为了提高学校教学管理决策的科学性和合理性,提高教学评价工作的独立性和客观性,利用现代网络平台,采用数据挖掘中的联机分析处理(OLAP)技术开发适合当今高校的教学质量自动监控系统,对学校在教学中可能出现的各种问题进行量化分析,并得出结论,为高校的发展起到了一定的促进作用。
一、OLAP相关概念
维(Dimension):是人们观察数据的特定角度。例如用户常从时间的角度来观察产品的销售,此时时间就是一个维(时间维)。
维层次(Dimension Hierarchy):用于描述用户观察的不同细节程度数据的角度。例如,描述时间维时,可以有日期、月份、季度、年等不同层次。
多维数据集也称为立方体,它可以用一个多维数组来表示。对OLAP的多维分析是指对多维数据集中的数据进行向上综合、向下查询、旋转、视角变换等方式分析数据。
二、基于OLAP的数据挖掘技术
基于OLAP的数据挖掘技术不仅具有挖掘OLAP数据特征的功能,而且还有关联、分类、制图、聚类和排序等其他数据挖掘功能。在教学质量监控系统的研究过程中主要采用以下几种技术:
1.基于OLAP的数据特征和比较
主要是总结和描述一系列与任务相关的数据特征。可借助深化(下钻)或浅化(上卷)技术挖掘多层次的知识。上卷是指从多维数据集中的低层开始层层向上汇总,其间可以选择适当的控制因素。下钻是指从相对高汇总级的多维数据集块向子块或低层钻取。
2.基于OLAP的关联规则挖掘
在数据仓库中,关联规则挖掘可分为维间关联规则挖掘和维内关联规则挖掘。维间关联规则是在不同维之间进行关联规则,而维内关联规则是同一维或者组和其它维所得的关联规则。两种关联的挖掘算法不同。维内关联规则通过将数据关系转化成配套关系,使得共享配套维中相同数值的数组合并成一个。那么,在同一转化中被看作是数据项的配套数组,可以采用Apriori算法进行关联规则的挖掘。同样,还可以采用元规则P(x,y)→Q(x,y,z),其中P,Q是与数据仓库中不同属性关联的预测变量,来定义搜寻规则用于限制搜寻条件。
借助于数据立方结构,能很方便地进行维间关联规则挖掘。数据立方体的计算单元存储了相应的多维数据的许多可能出现的计算,同时,维计算单元又存储着整个维的汇总。基于这种结构,可以直接根据汇总单元的数值关联规则计算规则的支持度和可信度的度量。这样的立方体块集,包括从细节层的汇总到高层的汇总,简化了多个逻辑层上的关联规则挖掘。规则A==> B中支持度和置信度的计算公式如下:
Support(A==>B)=num(A and B)/num(true)*100%
confidenct(A==>B)=num(A and B)/num(A)*100%
其中,num(A)表示数据库中使条件A为真的记录数,num(true)表示数据库中记录总数。使用数据立方技术,此时规则的支持度等于相关单元中的值。
3.基于OLAP的分类
分类方法有许多种,而基于OLAP的分类方法一样可以结合这些方法。它们包括决策树方法、统计方法、神经网络、模糊集等。基于OLAP的分类过程有四个步骤:①建立相关多维数据集,并将训练数据和测试数据进行分类;②分析因素的相关性;③建立分类(决策树);④用测试数据集测试数据分类的有效性。这里我们主要采用SQL Server2000集成在Analysis services中的决策树算法来实现基于OLAP的分类。
4.基于OLAP的聚类
OLAP挖掘与聚类分析集成方式如下:对得到的任意簇可以进一步描述该类的特征,并且可以在选定的类上执行OLAP操作和挖掘算法。或者可以回滚到进行聚类被执行前的某个点,继续对前面选中的多维数据集进行其它特性的探测。
5.回滚和比较挖掘分析
主要是通过回滚来改变挖掘路径。在OLAP挖掘中实施回滚技术方案如下:首先,一个状态矢量被保存在一个回滚栈(如果回滚的模式只是一步一步地简单后退)或一个回滚列表(如果需要对位置进行标记或其它的往返移动模式)里面。与状态矢量相关的立方体也要被保存起来并与向量链接。进行回滚时,上面的队列或者堆栈被用来回滚到适当的状态点。当操作完成时,所有被保存的回滚点以及与之相联系的向量和立方体块都将被删除以释放分配的空间。
三、基于OLAP教学质量监控系统模型设计
1.基于OLAP技术的教学质量监控系统结构(如图1)
以下给出使用OLAP的数据源来创建一个新数据挖掘模型的几个步骤和部分程序代码。
①连接服务器,并选择数据库;
dsoserver.connect“educationMonitorSevrer”
set dsodb=dsoserver.mdstores(“educationMonitor”)
②选取模型的源立方体和所需挖掘的维,设置模型的挖掘算法;
miningalgorithm=“Microsoft_decision_trees”
sourcecube=“mark”
caseDimension=“teacher”
③设置输入列和预测列。
Set dsodb=dsoserver.mdstores(“educationMonitor”)
If not dsodb.miningmodels(“teacherPatternsModelOLAP”) is nothing then
dsodb.miningmodels.remove “teacherPatternsModelOLAP”
end if
set dsodmm=dsodb.miningmodels.addnew(“teacherPatternsModelOLAP,sbclsOlap”)
set dsorole=dsodmm.roles.addnew(“all users”)
‘设置新挖掘模型必要的属性
With dsodmm
datasources.addnew “educationMonitor” , sbclsregular
description=“Analyzes the salaries of teacher”
‘选择模型的算法
miningalgorithm=“Microsoft_decision_trees”
‘设置模型的源立方体mark
sourcecube=“mark”
caseDimension=“teacher”
trainingquery=“”
update
end with
set dsocol=dsodmm.columns(“Tname”)
dsocol.isdisabled=false
‘保存数据挖掘模型
With dsodmm
Last updated=now
update
end with
3.获取所创建的数据挖掘模型信息
数据挖掘模型中的结构层面是通过OLE DB for data-mining provider来展示的。它的结构在存储模式上与关系型数据库表类似,主要存储数据挖掘模型的元数据信息,包括数据库名称、模式名、数据挖掘模型名称等等。此时,用户可以通过应用程序来访问某个决策树模型的节点或者聚类分析模型的聚类中的结构和内容。
四、结语
本文中,我们主要对数据仓库、数据挖掘、OLAP等相关概念做了简要的阐述,完成了基于OLAP技术的教学质量监控系统平台的搭建,实现了教学质量监控部分主题联机分析子系统,并构建了基于OLAP的数据挖掘模型;同时,通过构建基于数据立方体的关联规则挖掘模块的总体结构,给出了部分实例代码。由于教学质量监控系统所涉及的分析主题远远多于数据仓库中已建立的主题,因此,如何满足用户需求的变化和需求的增长仍然是需解决的问题。
参考文献:
[1]鲁正火,郑晓莉,姚舜英.浅谈信息技术应用于高校教学质量监控[J].教育信息化,2006(13):10-11.
[2]孙宏才.层次分析法与决策科学化[M].北京:中国经济出版社,1994.
[3]刘独玉,杨晋浩等.关联规则挖掘研究综述[J].成都大学学报(自然科学版),2006,25(1):54-58.
[4]陈文庆,许棠.关联规则挖掘Apriori算法的改进与实现[J].微机发展,2005,8(15):155-157.
[5]张云涛,龚玲.数据挖掘原理与技术[M].北京:电子工业出版社,2004.25-30.
[6]王树亮,徐亚平.关于教师教学质量测评模型的建立[J].教育信息化,2003(8).