基于DW和OLAP技术的数字图书馆资源访问分析

来源 :现代情报 | 被引量 : 0次 | 上传用户:one_tester
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  〔摘 要〕针对数字图书馆资源服务系统积累中的大量数字资源访问数据,研究并实现基于数据仓库及OLAP技术的数字资源服务分析系统。首先建立了与资源服务系统分离的数据仓库,并对数据仓库进行多维建模;然后对多维数据模型进行切片、切块、旋转、上钻和下钻等多维操作,从多角度对数字资源访问数据分析;最后采用前端开发工具开发了可视化的多维分析和数据展示平台。实践表明,基于数据仓库的数字资源服务分析可以图书馆管理层提供有效的决策支持。
  〔关键词〕数字资源服务;数据仓库;模型设计;联机分析处理;多维数据模型
  〔中图分类号〕TP311.13 〔文献标识码〕A 〔文章编号〕1008-0821(2009)11-0153-05
  Digital Resources Service Analysis System Based on Data Warehouse and OLAPXiong Yongjun Chen Chunying
  (Library,Central South University,Changsha 410083,China)
  〔Abstract〕Based on the large amount history data accumulated in the digital resources service system,the digital resources service analysis system based on data warehouse and OLAP technology was studied and implemented.First,the independent data warehouse of the digital resources service was established and the multi-dimensional model was set up to make multi-analysis.And then the multi-analysis analysed such as slice,dice,rotate,roll-up,and drill-down are made in order to analyze the data from multi-dimension.On this basis,the front-end development tool was used to develop the display platform for the data,which could be used for integration of visualization analysis.The experiments showed that the digital resources service analysis system could help the administrators of library to make the efficient decision supports.
  〔Keywords〕digital resources service;data warehouse(DW);model design;OLAP;multi-dimensional datasets
  
  随着信息技术的发展和信息资源的快速增长,数字图书馆信息资源服务模式由以“资源”为中心转变为成以“用户”为中心的个性化知识服务模型[1]。国内许多图书馆建立了自己的个性化数字资源服务平台MyLibrary。系统积累了大量的读者对数字资源的访问数据。但目前的数字资源个性化信息服务系统注重的是信息的检索、定制和推送等个性化服务功能,不能对资源访问数据进行深层次的分析与挖掘,不能很好为较高层次的管理者和决策者提供决策支持。
  
  OLAP支持决策人员从不同的角度、快速灵活地对数据仓库中的数据进行复杂查询和多维分析[5]。OLAP技术的基础是多维数据模型。所谓多维模型就是数据分析时用户的数据视图,是面向分析的数据模型,用于为分析人员提供多种观察的视角和面向分析的操作。
  多维数据分析的核心数据为多维模型的度量值,这些数据一般是数量、成本和费用等,例如资源访问中的访问次数。观察的视角即为多维模型的维度,例如从读者类型或院系专业来分析访问次数,读者就是资源访问的一个维度。在同一个维度上,可以存在多个不同的细节,这些细节就是维的层次,它是对维的进一步细化。例如资源访问时间就有学年、学期、月和日这4个层次。多维数据模型包含了维度和度量值,也被称为数据立方体或超立方体。OLAP 的多维分析,是指采用切片(slice)、切块(dice)、旋转(pivot)、上卷(roll-up)和钻取(drill-down)等基本操作[5],从而使用户达到从多个角度,多个细节分析数据的目的。
  
  2 数字资源服务分析型数据仓库设计
  
  2.1 数字资源服务数据仓库需求分析
  数据仓库的需求是多方面的,包括功能需求、数据需求、数据安全性和系统性能方面,以下重点分析数据需求和功能需求。
  2.1.1 数据需求
  要建立数字资源服务分析型数据仓库,首先需要将与决策分析相关的数据从数字资源服务系统导出并导入到一个分离的数据仓库中,供决策分析使用,所抽取的数据为面向主题的,所以数据的抽取也必须以分析主题为中心。数字资源服务数据仓库主要是对资源访问主题的分析,所涉及的信息包括读者信息、资源信息和资源访问信息。表1列出了资源访问分析主题中读者信息、资源信息和资源访问信息所需的常用数据。
  2.1.2 功能需求
  数字资源服务访问分析主题的功能需求可以从读者、资源和资源访问3个方面来分析。
  (1)读者分析。主要是对读者群体进行分类后,从不同的视角展现数字图书馆为读者提供服务情况。划分的角度可以按照读者本身的自然属性,如读者性别、年龄层次、年级、注册时间、读者类型(专科生、本科生、研究生等)、院系、专业等。
  
  数据仓库的逻辑模型一般分为星型模型和雪花模型两种。星型模型通常采用一个包含主题的事实表和多个维度表来支持各种决策查询,但星型模型不能很好提供对属性层次的支持。雪花模型是在星型模型的基础上改进而来的,可以提供对属性层次的支持。在雪花模型中,维度表除了具有星型模型中维度表的功能外,还与详细类别表相连,详细类别表可以在相关维度上进行详细分析描述,以缩小事实表、提高查询效率的目的。由于本文研究的资源服务信息所涉及的维度数据的层次较多,需要对维度数据规范化处理,所以采用雪花模型。
  数字资源服务主题的数据仓库多维数据模型如图2所示,包括资源访问事实表、读者维度、资源维度、日期维度、时间维度和访问方式维度。图3为在Analysis Services平台上实现后的示意图。
   对于读者维度,需对读者类型、读者院系、读者专业、读者年龄层次和读者年级等进行规范,随着时间的变化,读者年龄层次和年级也会发生变化,这就需要在数据仓库中跟踪这些变化,对维度做渐变处理,渐变方法参见文献[6]。对于资源维度,需要规范的数据有出版时间、资源类型、资源来源、语种和资源分类,资源分类采用中图分类法的类目级别来规范。对访问时间维度,为1天中的访问时间区段,时间间隔设为1小时,可以反映出1天24小时的访问情况。访问方式维度,数据规范为题录浏览、文摘浏览、全文浏览和全文下载。
  2.2.2 多维模型的存储设计
  在对多维模型进行处理时,需要解决是采用多维数据库系统还是采用关系数据库系统存储数据的问题。如果采用多维数据库系统存储、显示数据,那么这种OLAP系统就是基于多维的OLAP,即MOLAP(multidimensional OLAP)。如果采用关系数据库系统存储、显示数据,那么这种OLAP系统就是基于关系的OLAP,即ROLAP(relational OLAP)[7]。
  
  由于MOLAP结构能迅速地响应决策分析人员的分析请求并快速地将分析结果返回给用户,而数据仓库中数据量很大,所以为提高响应速度,本文研究的多维数据模型均采用MOLAP存储。
  
  3 数字资源服务多维数据分析
  
  建立数字资源服务数据仓库的最终目的是为了对资源访问数据进行多方面的智能分析,本系统中分别在Analysis Services、Microsoft Excel和Crystal Analysis这3个工具上对资源访问数据仓库中的多维数据进行多维分析和计算,限于篇幅,以下介绍部分功能。
  3.1 使用多维数据集浏览器分析数据
  使用Analysis Services的Cube Browser(多维数据集浏览器)可以对建立的多维数据集进行数据地行上卷、下钻、切片和切块等操作,从多个角度来对数据进行浏览与分析。数据分析的常用操作如图4所示。
   切片是指在多维数据集的某一维上选定一个维成员的动作,即在多维数组中选一维,并取其一维成员,所得的多维数组的子集称为在该维上的一个切片。对于数字资源访问多维数据集来说,只研究某一读者类型为本科生的数据这就是一个切片。
  切块是指在多维数组的某一维上选取某一区间的维成员的动作。对于数字资源服务多维数据集,若研究某一访问时间区间的数据就是一个切块。
  钻取是改变维的层次,变换分析的粒度,它包括上卷和下钻。上卷是在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数;而下钻则相反,它从汇总数据深入到细节数据进行观察或增加新维。要了解所有某年的资源访问情况就可以在访问时间的“学期”层次上采用上钻操作,要了解资源的二级分类数据就可以采用下钻操作,如需要更详细的某月或某日的资源访问数据还可以在时间维度上进一步下钻。
  3.2 使用Excel的数据透视表和数据透视图分析数据
  Microsoft Excel的数据透视表(或透视图)服务作为客户端工具,起着与OLAP服务器通讯和为客户程序提供访问OLAP数据接口的作用。首先在Excel中启动数据透视表和数据透视图服务,然后将数据透视视图的数据源设为OLAP中的具体多维模型,可以同时创建数据透视图和透视表。
  图5给出了数字资源访问多维数据模型的一个数据透视图,为不同类型资源的访问情况柱形图,在透视图上可以方便地进行各种多维操作,根据分析需求建立其它的图表来进行资源访问分析。
  使用Microsoft Excel的数据透视表功能同样可以对多维数据集进行旋转、上钻、下钻、切片和切块等多维分析,同时数据透视图的功能,可以将表转化成图的形式更直观地表示出来,Excel提供的图种类很多,有折线图、柱形图、条形图、饼图等。
  
   4 结 语
  
  本文基于数据仓库OLAP技术建立了数字资源服务分析系统,将数字图书馆资源服务系统中将数字资源访问数据导入到数据仓库中,然后在数据仓库中根据分析需求建立多维数据模型,在多维模型的基础上对数据进行OLAP分析,为数字资源的采购和服务提供决策支持,也为进行更深层次的数据分析如数据挖掘建立了数据的基础。
  
  参考文献
  [1]郭海明,刘桂珍.数字图书馆信息服务模式发展研究[J].情报理论与实践,2005,(3):251-254.
  [2]王珊.数据仓库技术与联机分析处理[M].北京:科学出版社,1998:4-12.
  [3]Jiawei Han,Micheline Kamber.数据挖掘:概念与技术[M].北京:机械工业出版社,2001:223-260.
  [4]林宇.数据仓库原理与实践[M].北京:人民邮电出版社,2003:50-124.
  [5]杨彬彬,郑晓薇.基于数据仓库技术的CRM决策支持系统模型设计[J].计算机工程与设计,2004,25(7):1182-1184.
  [6]何玉洁,张俊超.数据仓库与OLAP实践教程[M].北京:清华大学出版社,2008:65-70.
  [7]布瑞,等.SQL Server 2000数据仓库与Analysis Services[M].北京:中国电力出版社,2003:9-226.
其他文献
唐朝是中国历史上最强盛的时代之一。在一系列的社会改革过程中,从初唐到盛唐,其国力达到全盛时期。丝绸之路的开拓又为其带来了经济文化的交流,在一派繁荣的环境当中,唐代的
唐朝作为中国古代历史上高度繁荣的重要时期,在政治制度、经济制度、法律制度上都表现出了较大的优越性。唐朝婚姻制度在古代封建社会中起着承上启下的作用,呈现出了鲜明的特
以红茶为原料,产酱香枯草芽孢杆菌(Bacillus subtilis)E20菌株作为发酵菌种,生产具有酱香风味的红茶制品。其生产的工艺条件为:将E20菌悬液接种到发酵培养基中,程序升温发酵6
针对传统舰船信息处理系统存在信息采集精度偏低、响应时间较长的问题,提出基于Web技术的舰船信息系统优化设计方法。该信息处理系统的总体结构包括舰船信息采集和舰船通信服
根据数字馆藏的特点,通过传统馆藏与数字馆藏生命周期比较,阐述了信息生命周期管理与传统的三线典藏制之间的联系,指出在数字馆藏管理中引入信息生命周期管理策略,可指导图书馆在
本文从宏观基础、政治主导、利益平衡三个相互关联、相互制约的发展角度,剖析了社会环境导致的高校图书馆信息资源建设、观念等的变化,强调高校图书馆只有获得自身存在的社会
时学科馆员进行绩效考核评价是积极推进学科馆员制度的有力保障,文章阐述了实施学科馆员绩效考核应遵循的原则和开展学科馆员绩效考核的详尽步骤,提出了在时学科馆员进行绩效考
本翻译实践报告主要介绍科技文本英译汉中词类转换法的运用。科技文本是一种信息型文本,翻译时尤其要注意"达意",即由源语言翻译成目的语时以传递信息为主。在汉译此次翻译任