论文部分内容阅读
〔摘 要〕针对数字图书馆资源服务系统积累中的大量数字资源访问数据,研究并实现基于数据仓库及OLAP技术的数字资源服务分析系统。首先建立了与资源服务系统分离的数据仓库,并对数据仓库进行多维建模;然后对多维数据模型进行切片、切块、旋转、上钻和下钻等多维操作,从多角度对数字资源访问数据分析;最后采用前端开发工具开发了可视化的多维分析和数据展示平台。实践表明,基于数据仓库的数字资源服务分析可以图书馆管理层提供有效的决策支持。
〔关键词〕数字资源服务;数据仓库;模型设计;联机分析处理;多维数据模型
〔中图分类号〕TP311.13 〔文献标识码〕A 〔文章编号〕1008-0821(2009)11-0153-05
Digital Resources Service Analysis System Based on Data Warehouse and OLAPXiong Yongjun Chen Chunying
(Library,Central South University,Changsha 410083,China)
〔Abstract〕Based on the large amount history data accumulated in the digital resources service system,the digital resources service analysis system based on data warehouse and OLAP technology was studied and implemented.First,the independent data warehouse of the digital resources service was established and the multi-dimensional model was set up to make multi-analysis.And then the multi-analysis analysed such as slice,dice,rotate,roll-up,and drill-down are made in order to analyze the data from multi-dimension.On this basis,the front-end development tool was used to develop the display platform for the data,which could be used for integration of visualization analysis.The experiments showed that the digital resources service analysis system could help the administrators of library to make the efficient decision supports.
〔Keywords〕digital resources service;data warehouse(DW);model design;OLAP;multi-dimensional datasets
随着信息技术的发展和信息资源的快速增长,数字图书馆信息资源服务模式由以“资源”为中心转变为成以“用户”为中心的个性化知识服务模型[1]。国内许多图书馆建立了自己的个性化数字资源服务平台MyLibrary。系统积累了大量的读者对数字资源的访问数据。但目前的数字资源个性化信息服务系统注重的是信息的检索、定制和推送等个性化服务功能,不能对资源访问数据进行深层次的分析与挖掘,不能很好为较高层次的管理者和决策者提供决策支持。
OLAP支持决策人员从不同的角度、快速灵活地对数据仓库中的数据进行复杂查询和多维分析[5]。OLAP技术的基础是多维数据模型。所谓多维模型就是数据分析时用户的数据视图,是面向分析的数据模型,用于为分析人员提供多种观察的视角和面向分析的操作。
多维数据分析的核心数据为多维模型的度量值,这些数据一般是数量、成本和费用等,例如资源访问中的访问次数。观察的视角即为多维模型的维度,例如从读者类型或院系专业来分析访问次数,读者就是资源访问的一个维度。在同一个维度上,可以存在多个不同的细节,这些细节就是维的层次,它是对维的进一步细化。例如资源访问时间就有学年、学期、月和日这4个层次。多维数据模型包含了维度和度量值,也被称为数据立方体或超立方体。OLAP 的多维分析,是指采用切片(slice)、切块(dice)、旋转(pivot)、上卷(roll-up)和钻取(drill-down)等基本操作[5],从而使用户达到从多个角度,多个细节分析数据的目的。
2 数字资源服务分析型数据仓库设计
2.1 数字资源服务数据仓库需求分析
数据仓库的需求是多方面的,包括功能需求、数据需求、数据安全性和系统性能方面,以下重点分析数据需求和功能需求。
2.1.1 数据需求
要建立数字资源服务分析型数据仓库,首先需要将与决策分析相关的数据从数字资源服务系统导出并导入到一个分离的数据仓库中,供决策分析使用,所抽取的数据为面向主题的,所以数据的抽取也必须以分析主题为中心。数字资源服务数据仓库主要是对资源访问主题的分析,所涉及的信息包括读者信息、资源信息和资源访问信息。表1列出了资源访问分析主题中读者信息、资源信息和资源访问信息所需的常用数据。
2.1.2 功能需求
数字资源服务访问分析主题的功能需求可以从读者、资源和资源访问3个方面来分析。
(1)读者分析。主要是对读者群体进行分类后,从不同的视角展现数字图书馆为读者提供服务情况。划分的角度可以按照读者本身的自然属性,如读者性别、年龄层次、年级、注册时间、读者类型(专科生、本科生、研究生等)、院系、专业等。
数据仓库的逻辑模型一般分为星型模型和雪花模型两种。星型模型通常采用一个包含主题的事实表和多个维度表来支持各种决策查询,但星型模型不能很好提供对属性层次的支持。雪花模型是在星型模型的基础上改进而来的,可以提供对属性层次的支持。在雪花模型中,维度表除了具有星型模型中维度表的功能外,还与详细类别表相连,详细类别表可以在相关维度上进行详细分析描述,以缩小事实表、提高查询效率的目的。由于本文研究的资源服务信息所涉及的维度数据的层次较多,需要对维度数据规范化处理,所以采用雪花模型。
数字资源服务主题的数据仓库多维数据模型如图2所示,包括资源访问事实表、读者维度、资源维度、日期维度、时间维度和访问方式维度。图3为在Analysis Services平台上实现后的示意图。
对于读者维度,需对读者类型、读者院系、读者专业、读者年龄层次和读者年级等进行规范,随着时间的变化,读者年龄层次和年级也会发生变化,这就需要在数据仓库中跟踪这些变化,对维度做渐变处理,渐变方法参见文献[6]。对于资源维度,需要规范的数据有出版时间、资源类型、资源来源、语种和资源分类,资源分类采用中图分类法的类目级别来规范。对访问时间维度,为1天中的访问时间区段,时间间隔设为1小时,可以反映出1天24小时的访问情况。访问方式维度,数据规范为题录浏览、文摘浏览、全文浏览和全文下载。
2.2.2 多维模型的存储设计
在对多维模型进行处理时,需要解决是采用多维数据库系统还是采用关系数据库系统存储数据的问题。如果采用多维数据库系统存储、显示数据,那么这种OLAP系统就是基于多维的OLAP,即MOLAP(multidimensional OLAP)。如果采用关系数据库系统存储、显示数据,那么这种OLAP系统就是基于关系的OLAP,即ROLAP(relational OLAP)[7]。
由于MOLAP结构能迅速地响应决策分析人员的分析请求并快速地将分析结果返回给用户,而数据仓库中数据量很大,所以为提高响应速度,本文研究的多维数据模型均采用MOLAP存储。
3 数字资源服务多维数据分析
建立数字资源服务数据仓库的最终目的是为了对资源访问数据进行多方面的智能分析,本系统中分别在Analysis Services、Microsoft Excel和Crystal Analysis这3个工具上对资源访问数据仓库中的多维数据进行多维分析和计算,限于篇幅,以下介绍部分功能。
3.1 使用多维数据集浏览器分析数据
使用Analysis Services的Cube Browser(多维数据集浏览器)可以对建立的多维数据集进行数据地行上卷、下钻、切片和切块等操作,从多个角度来对数据进行浏览与分析。数据分析的常用操作如图4所示。
切片是指在多维数据集的某一维上选定一个维成员的动作,即在多维数组中选一维,并取其一维成员,所得的多维数组的子集称为在该维上的一个切片。对于数字资源访问多维数据集来说,只研究某一读者类型为本科生的数据这就是一个切片。
切块是指在多维数组的某一维上选取某一区间的维成员的动作。对于数字资源服务多维数据集,若研究某一访问时间区间的数据就是一个切块。
钻取是改变维的层次,变换分析的粒度,它包括上卷和下钻。上卷是在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数;而下钻则相反,它从汇总数据深入到细节数据进行观察或增加新维。要了解所有某年的资源访问情况就可以在访问时间的“学期”层次上采用上钻操作,要了解资源的二级分类数据就可以采用下钻操作,如需要更详细的某月或某日的资源访问数据还可以在时间维度上进一步下钻。
3.2 使用Excel的数据透视表和数据透视图分析数据
Microsoft Excel的数据透视表(或透视图)服务作为客户端工具,起着与OLAP服务器通讯和为客户程序提供访问OLAP数据接口的作用。首先在Excel中启动数据透视表和数据透视图服务,然后将数据透视视图的数据源设为OLAP中的具体多维模型,可以同时创建数据透视图和透视表。
图5给出了数字资源访问多维数据模型的一个数据透视图,为不同类型资源的访问情况柱形图,在透视图上可以方便地进行各种多维操作,根据分析需求建立其它的图表来进行资源访问分析。
使用Microsoft Excel的数据透视表功能同样可以对多维数据集进行旋转、上钻、下钻、切片和切块等多维分析,同时数据透视图的功能,可以将表转化成图的形式更直观地表示出来,Excel提供的图种类很多,有折线图、柱形图、条形图、饼图等。
4 结 语
本文基于数据仓库OLAP技术建立了数字资源服务分析系统,将数字图书馆资源服务系统中将数字资源访问数据导入到数据仓库中,然后在数据仓库中根据分析需求建立多维数据模型,在多维模型的基础上对数据进行OLAP分析,为数字资源的采购和服务提供决策支持,也为进行更深层次的数据分析如数据挖掘建立了数据的基础。
参考文献
[1]郭海明,刘桂珍.数字图书馆信息服务模式发展研究[J].情报理论与实践,2005,(3):251-254.
[2]王珊.数据仓库技术与联机分析处理[M].北京:科学出版社,1998:4-12.
[3]Jiawei Han,Micheline Kamber.数据挖掘:概念与技术[M].北京:机械工业出版社,2001:223-260.
[4]林宇.数据仓库原理与实践[M].北京:人民邮电出版社,2003:50-124.
[5]杨彬彬,郑晓薇.基于数据仓库技术的CRM决策支持系统模型设计[J].计算机工程与设计,2004,25(7):1182-1184.
[6]何玉洁,张俊超.数据仓库与OLAP实践教程[M].北京:清华大学出版社,2008:65-70.
[7]布瑞,等.SQL Server 2000数据仓库与Analysis Services[M].北京:中国电力出版社,2003:9-226.
〔关键词〕数字资源服务;数据仓库;模型设计;联机分析处理;多维数据模型
〔中图分类号〕TP311.13 〔文献标识码〕A 〔文章编号〕1008-0821(2009)11-0153-05
Digital Resources Service Analysis System Based on Data Warehouse and OLAPXiong Yongjun Chen Chunying
(Library,Central South University,Changsha 410083,China)
〔Abstract〕Based on the large amount history data accumulated in the digital resources service system,the digital resources service analysis system based on data warehouse and OLAP technology was studied and implemented.First,the independent data warehouse of the digital resources service was established and the multi-dimensional model was set up to make multi-analysis.And then the multi-analysis analysed such as slice,dice,rotate,roll-up,and drill-down are made in order to analyze the data from multi-dimension.On this basis,the front-end development tool was used to develop the display platform for the data,which could be used for integration of visualization analysis.The experiments showed that the digital resources service analysis system could help the administrators of library to make the efficient decision supports.
〔Keywords〕digital resources service;data warehouse(DW);model design;OLAP;multi-dimensional datasets
随着信息技术的发展和信息资源的快速增长,数字图书馆信息资源服务模式由以“资源”为中心转变为成以“用户”为中心的个性化知识服务模型[1]。国内许多图书馆建立了自己的个性化数字资源服务平台MyLibrary。系统积累了大量的读者对数字资源的访问数据。但目前的数字资源个性化信息服务系统注重的是信息的检索、定制和推送等个性化服务功能,不能对资源访问数据进行深层次的分析与挖掘,不能很好为较高层次的管理者和决策者提供决策支持。

OLAP支持决策人员从不同的角度、快速灵活地对数据仓库中的数据进行复杂查询和多维分析[5]。OLAP技术的基础是多维数据模型。所谓多维模型就是数据分析时用户的数据视图,是面向分析的数据模型,用于为分析人员提供多种观察的视角和面向分析的操作。
多维数据分析的核心数据为多维模型的度量值,这些数据一般是数量、成本和费用等,例如资源访问中的访问次数。观察的视角即为多维模型的维度,例如从读者类型或院系专业来分析访问次数,读者就是资源访问的一个维度。在同一个维度上,可以存在多个不同的细节,这些细节就是维的层次,它是对维的进一步细化。例如资源访问时间就有学年、学期、月和日这4个层次。多维数据模型包含了维度和度量值,也被称为数据立方体或超立方体。OLAP 的多维分析,是指采用切片(slice)、切块(dice)、旋转(pivot)、上卷(roll-up)和钻取(drill-down)等基本操作[5],从而使用户达到从多个角度,多个细节分析数据的目的。
2 数字资源服务分析型数据仓库设计
2.1 数字资源服务数据仓库需求分析
数据仓库的需求是多方面的,包括功能需求、数据需求、数据安全性和系统性能方面,以下重点分析数据需求和功能需求。
2.1.1 数据需求
要建立数字资源服务分析型数据仓库,首先需要将与决策分析相关的数据从数字资源服务系统导出并导入到一个分离的数据仓库中,供决策分析使用,所抽取的数据为面向主题的,所以数据的抽取也必须以分析主题为中心。数字资源服务数据仓库主要是对资源访问主题的分析,所涉及的信息包括读者信息、资源信息和资源访问信息。表1列出了资源访问分析主题中读者信息、资源信息和资源访问信息所需的常用数据。
2.1.2 功能需求
数字资源服务访问分析主题的功能需求可以从读者、资源和资源访问3个方面来分析。
(1)读者分析。主要是对读者群体进行分类后,从不同的视角展现数字图书馆为读者提供服务情况。划分的角度可以按照读者本身的自然属性,如读者性别、年龄层次、年级、注册时间、读者类型(专科生、本科生、研究生等)、院系、专业等。

数据仓库的逻辑模型一般分为星型模型和雪花模型两种。星型模型通常采用一个包含主题的事实表和多个维度表来支持各种决策查询,但星型模型不能很好提供对属性层次的支持。雪花模型是在星型模型的基础上改进而来的,可以提供对属性层次的支持。在雪花模型中,维度表除了具有星型模型中维度表的功能外,还与详细类别表相连,详细类别表可以在相关维度上进行详细分析描述,以缩小事实表、提高查询效率的目的。由于本文研究的资源服务信息所涉及的维度数据的层次较多,需要对维度数据规范化处理,所以采用雪花模型。
数字资源服务主题的数据仓库多维数据模型如图2所示,包括资源访问事实表、读者维度、资源维度、日期维度、时间维度和访问方式维度。图3为在Analysis Services平台上实现后的示意图。
对于读者维度,需对读者类型、读者院系、读者专业、读者年龄层次和读者年级等进行规范,随着时间的变化,读者年龄层次和年级也会发生变化,这就需要在数据仓库中跟踪这些变化,对维度做渐变处理,渐变方法参见文献[6]。对于资源维度,需要规范的数据有出版时间、资源类型、资源来源、语种和资源分类,资源分类采用中图分类法的类目级别来规范。对访问时间维度,为1天中的访问时间区段,时间间隔设为1小时,可以反映出1天24小时的访问情况。访问方式维度,数据规范为题录浏览、文摘浏览、全文浏览和全文下载。
2.2.2 多维模型的存储设计
在对多维模型进行处理时,需要解决是采用多维数据库系统还是采用关系数据库系统存储数据的问题。如果采用多维数据库系统存储、显示数据,那么这种OLAP系统就是基于多维的OLAP,即MOLAP(multidimensional OLAP)。如果采用关系数据库系统存储、显示数据,那么这种OLAP系统就是基于关系的OLAP,即ROLAP(relational OLAP)[7]。

由于MOLAP结构能迅速地响应决策分析人员的分析请求并快速地将分析结果返回给用户,而数据仓库中数据量很大,所以为提高响应速度,本文研究的多维数据模型均采用MOLAP存储。
3 数字资源服务多维数据分析
建立数字资源服务数据仓库的最终目的是为了对资源访问数据进行多方面的智能分析,本系统中分别在Analysis Services、Microsoft Excel和Crystal Analysis这3个工具上对资源访问数据仓库中的多维数据进行多维分析和计算,限于篇幅,以下介绍部分功能。
3.1 使用多维数据集浏览器分析数据
使用Analysis Services的Cube Browser(多维数据集浏览器)可以对建立的多维数据集进行数据地行上卷、下钻、切片和切块等操作,从多个角度来对数据进行浏览与分析。数据分析的常用操作如图4所示。
切片是指在多维数据集的某一维上选定一个维成员的动作,即在多维数组中选一维,并取其一维成员,所得的多维数组的子集称为在该维上的一个切片。对于数字资源访问多维数据集来说,只研究某一读者类型为本科生的数据这就是一个切片。
切块是指在多维数组的某一维上选取某一区间的维成员的动作。对于数字资源服务多维数据集,若研究某一访问时间区间的数据就是一个切块。
钻取是改变维的层次,变换分析的粒度,它包括上卷和下钻。上卷是在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数;而下钻则相反,它从汇总数据深入到细节数据进行观察或增加新维。要了解所有某年的资源访问情况就可以在访问时间的“学期”层次上采用上钻操作,要了解资源的二级分类数据就可以采用下钻操作,如需要更详细的某月或某日的资源访问数据还可以在时间维度上进一步下钻。
3.2 使用Excel的数据透视表和数据透视图分析数据
Microsoft Excel的数据透视表(或透视图)服务作为客户端工具,起着与OLAP服务器通讯和为客户程序提供访问OLAP数据接口的作用。首先在Excel中启动数据透视表和数据透视图服务,然后将数据透视视图的数据源设为OLAP中的具体多维模型,可以同时创建数据透视图和透视表。
图5给出了数字资源访问多维数据模型的一个数据透视图,为不同类型资源的访问情况柱形图,在透视图上可以方便地进行各种多维操作,根据分析需求建立其它的图表来进行资源访问分析。
使用Microsoft Excel的数据透视表功能同样可以对多维数据集进行旋转、上钻、下钻、切片和切块等多维分析,同时数据透视图的功能,可以将表转化成图的形式更直观地表示出来,Excel提供的图种类很多,有折线图、柱形图、条形图、饼图等。
4 结 语
本文基于数据仓库OLAP技术建立了数字资源服务分析系统,将数字图书馆资源服务系统中将数字资源访问数据导入到数据仓库中,然后在数据仓库中根据分析需求建立多维数据模型,在多维模型的基础上对数据进行OLAP分析,为数字资源的采购和服务提供决策支持,也为进行更深层次的数据分析如数据挖掘建立了数据的基础。
参考文献
[1]郭海明,刘桂珍.数字图书馆信息服务模式发展研究[J].情报理论与实践,2005,(3):251-254.
[2]王珊.数据仓库技术与联机分析处理[M].北京:科学出版社,1998:4-12.
[3]Jiawei Han,Micheline Kamber.数据挖掘:概念与技术[M].北京:机械工业出版社,2001:223-260.
[4]林宇.数据仓库原理与实践[M].北京:人民邮电出版社,2003:50-124.
[5]杨彬彬,郑晓薇.基于数据仓库技术的CRM决策支持系统模型设计[J].计算机工程与设计,2004,25(7):1182-1184.
[6]何玉洁,张俊超.数据仓库与OLAP实践教程[M].北京:清华大学出版社,2008:65-70.
[7]布瑞,等.SQL Server 2000数据仓库与Analysis Services[M].北京:中国电力出版社,2003:9-226.