基于数据仓库的图书流通分析系统的研究与应用

来源 :电脑知识与技术·学术交流 | 被引量 : 0次 | 上传用户:nmjhurfdv
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:介绍数据仓库的概念,通过数据仓库、数据挖掘技术,创建数据挖掘模型,实现了图书流通分析系统,为图书馆管理者提供了决策支持。
  关键词:数据仓库;流通分析;数据挖掘;图书馆
  中图分类号:TP311文献标识码:A 文章编号:1009-3044(2008)20-30201-03
  
  Research and Application of Books Circulation Analysis System Based on Data Warehouse
  DAI Bin,WU Zhi-kai,CHEN Chao-xiang
  (Zhejiang Shuren University,Information Technology College, Hangzhou 310015,China)
  Abstract: the paper introduces the concept of data warehouse, and creates data mining model,and realizes the Books Circulation Analysis System to provide support for library manager's decision-making.
  Key words:data warehouse; Circulation Analysis System; data mining; Ontology;Library
  
  1 引言
  
  近年来,随着图书馆技术的发展,信息处理技术也得到迅速的发展,信息的检索、查找更加平凡,我校图书馆自建校到2008年5月,图书资源管藏量已超过100万册。图书数目以如此速度的发展,图书的种类如此多样化,需要更好的数据管理技术。而目前的计算机处理能力用传统的数据库无法完成这样类型的处理。管理人员无法从傳统的数据库处理中提取更有用,更快捷,更有利于决策的信息。数据仓库技术便应运而生了。
  
  2 数据仓库的概念
  
  1992年美国著名的信息工程学家WH.Inmon在《Building the data Warehouse》(《建立数据仓库》)一书中首先系统阐述了关于数据仓库的思想理论。他在这本书中不仅仅说明为什么要建立数据仓库以及数据仓库能给你带来什么,更重要的是Inmon第一次提供了如何建立数据仓库的指导性意见。[1]数据仓库是对数据进行多层次的数据分析,数据仓库用于支持决策,面向分析型数据处理。
  数据仓库是以循序渐进的方式逐步发展起来的。近年来,数据仓库已经在图书馆的发展中起到了广泛的应用。早先,在图书馆领域中,基本上都是通过报表的形式或者是小性的数据仓库来管理的。这些小型的数据管理系统不能对图书馆的管理和决策很少或者根本起不到作用。数据仓库提供的信息极大地改善了这些方面的决策质量。然而,在当今竞争异常激烈的商业环境中,优秀的战略仅仅是成功的诸多要素之一。若不能付诸有效的实施,任何战略都将是一纸空文。
  新一代的数据仓库的提出和发展,将对图书馆的管理和有效的决策起到不可预测的帮助。
  数据挖掘(Data Mining)是指从大量结构化和非结构化的数据中提取有用的信息和知识的过程,它是知识发现的有效手段。该概念出现在1989年举行的第11届国际联合人工智能学术会议上,人们首次提出了数据库中的知识发现(Knowledge Discovery in DataBase,KDD)技术,并且直到1995年,人们才在美国计算机年会(Assciation for Computiny Machihery,ACM)上首次提出数据挖掘概念。[2]数据挖掘就是在大量的数据中提取规律或数据间的关系。
  
  3 采取的基本思路和技术实现方法
  
  在 SQL Server 2005 中设计商业智能应用程序时,首先根据 Analysis Services 项目模板,创建SSAS项目。在创建了 Analysis Services 项目后,再定义一个或多个数据源。然后,根据选自数据源的表或视图,定义名为“数据源视图”的单个元数据统一视图。
  3.1 数据源
  在SQL Server 2005的定义是Reporting Services 数据源包含数据库连接的有关信息。包括服务器名称、数据库名称和用户凭据。数据源内包含的信息因数据库类型而异一个数据源可以只用于一个报表中,也可以由多个报表共享。
  3.2 创建维度
  所有维度均基于数据源视图中的各个表或视图。在使用数据源生成中的自动生成创建属性和层次结构。通过多维数据集可以更具体的看出个表间的关系。在本题中多维数据集如图1。
  3.3 数据仓库
  数据仓库的目的是组织大量的稳定数据以便于分析和检索,采用简化的结构组织数据,以便提高分析查询的效率,而不是为了进行事务处理,利用ontology建模方法对多种数据来源进行预处理,使之规范化,并实现数据的有效集成。
  3.4 数据分析和挖掘
  使用数据挖掘模型之前必须先对它们进行处理,可将定型数据传递算法来填充模型。利用各种分析挖掘工具,决策者可以作出正确的决策。根据数据挖掘向导创建机遇基于Microsoft 时序算法的挖掘结构和初始关联挖掘模型。主要的方法有决策树、关联规则、神经元网络、逻辑回归、时序、线性回归等。
  
  4 采用决策树算法实现数据挖掘
  
  4.1 采用的数据挖掘算法
  在SQL Server 2005中有提供了决策树、关联规则、神经元网络、逻辑回归、时序、线性回归等一系列算法。Microsoft决策树算法是由SSAS提供的分类和回归算法,用于对离散和连续属性进行预测性建模。本系统只要采用的是Microsoft决策树算法来实现数据挖掘。
  图2 决策树的图
  4.2 测试挖掘模型的准确性
  在SQL Server 2005中,可以根据数据挖掘模型“提升图”通过与理想的数据线分布计算出挖掘模型的精度。通过与理想数据线分布的对比,计算出挖掘模型的精度。
  
  图3 数据挖掘提升图
  3.3数据挖掘中的数据关系
  数据挖掘中的关键是各个数据间的关系,通过从大量的,不完全的数据中,提取有用的信息和潜在的规律,从而提供有用的决策。在本题中数据的关系如图3所示。
  图4 数据关系图
  
  5 数据仓库在图书馆的应用
  
  近年来数据仓库在图书馆中的应用越来越广泛因为数据仓库在图书馆的应用中有以下优点:
  5.1 数据仓库对读者需求分布的分析
  数据仓库对读者的分布了解读者起到非常重要的作用。在大学的学习生活中,师生关系的距离越来越远,老师了解学生的习惯与要求也就越来越少,数据仓库在这方面起到了非常重要的作用。主要包括,可以通过读者的专业,多年来读者借阅情况等多方面综合分析,清楚读者的取向和兴趣。能为学校的教育,老师对学生的了解,提供支持和帮助。了解读者的兴趣和爱好,可以适当增加这方面的图书,为学生的学习提供方便。根据图书的流通,为图书馆的领导了解工作人员的工作效率,以及指定一些决策提供科学性的依据,合理的安排人员和作息时间
  5.2 数据仓库对图书和期刊的剔除和采购分析提供决策
  图书的剔除和采购是图书馆更新信息的重要方面。只有提够正确的图书信息才能正确的更新图书,只有正确的更新图书馆的信息,才能使图书馆跟上现代化的发展。在这方面数据仓库起到了非常重要的作用,通过数据仓库的分析,统计出长时间的没有通过流通的书籍,统计出呆滞书目,进行剔除处理,通过数据仓库的分析,对图书的采购提供正确合理的决策。合理的采购可以避免重复采购可以减少财力的浪费。
  
  6 结束语
  
  数据仓库在先阶段的为图书馆的发展中起到了重要的作用,在以后的发展中同样可以为数字图书馆的建立和发展提供技术支持,作为图书馆的未来发展趋势,数字图书馆在研究和发展中遭遇重重困难,数据仓库、数据挖掘技术在这方面有巨大潜力,可以起到关键作用。虽然数据仓库技术在图书馆领域的发展还处于初级阶段,但它在这方面的优势和挖掘能力,将显示出它的巨大潜力和广阔的应用前景。
  
  参考文献:
  [1] 安淑芝.数据仓库与数据挖掘[M].清华大学出版社.2005(6).2-3.
  [2] 苏新宁,杨建林,江念南, 栗湘.数据仓库和数据挖掘[M]. 清华大学出版社.2006(4).114-115.
  [3] 王珊.数据仓库和联机分析处理[M].科学出版社.1998.
  [4] 吴隆基.维度建模技术在构建图书馆数据仓库中的应用[J].情报科学.2005.23(4).
其他文献
摘要:为有效利用数据资源,提高决策支持能力,需研制相应的OLAP解决方案。详细介绍了OLAP的基本概念与数据分析方法。提出了适用于装备维修数据处理应用的设计与实现方法,构建了系统整体结构,详细分析了各模块功能,建立了数据模型,使用VB6.0和SQL Server等工具进行了系统的实现。经过对实现结果的分析,达到了最初的设计要求。  关键字:联机分析处理;多维分析;数据模型;切片;装备维修  中图法
期刊
摘要:数字水印技术是数字产品版权保护领域中的研究热点,是一种全新的保护多媒体信息安全的技术。许多专家对数字水印算法进行了深刻的广泛的研究,并取得了一定的成果,本文首先简单介绍了数字水印技术的一般的基本原理,同时对多媒体短信(MMS)基本含义作了一个简单的介绍,详细阐述了利用数字水印技术在多媒体短信(MMS)中进行信息隐藏的理论,同时简单分析了数字水印技术在未来多媒体短信(MMS)的应用潜力。  关
期刊
摘要:论文基于MODICON伺服系统研究了现代物流装备中堆垛机的运动控制方法,并结合具体实际设计了一个有轨巷道堆垛机的运动控制系统。  关键词:伺服系统;运动控制;堆垛机;物流系统  中图分类号:TH246 文献标识码:A 文章编号:1009-3044(2008)13-20756-03
期刊
摘要:在多线接入电话终端项目中,对语音进行处理是一个非常重要的部分。语音的处理包括静噪,回声消除和混音几个部分。其中混音技术,关系到在电话终端的语音质量,在应用中尤为重要。在系统中,需要使用SEP4020对多路的语音进行混音合成。该文对混音算法及其在SEP4020上的应用做了讨论。  关键词:混音;权重法;SEP4020  中图分类号:TP334文献标识码:A文章编号:1009-3044(2008
期刊
摘要:在zigbee多节点的应用场合中,为了能够方便快捷的查找某个节点,或者监测周围移动节点在一个范围内的情况,提出了无线搜寻的概念。本设计是一种在win CE下基于zigbee短距离无线搜寻系统。可以对几十米内遵循zigBee协议的产品进行搜寻,用于搜寻的模块使用串口与装有win CE操作系统的手持设备进行数据通信,并通过win CE上的软件将周围设备与手持设备的大概距离显示出来。  关键字:z
期刊
摘要:实验室管理系统是高效管理的重要组成部分。该系统针对目前高校多校区化导致实验室不易管理的问题,基于ASP.NET与XML等新技开发的实验室管理系统。通过XML技术,实现不同平台之间信息交互,达到统一管理的目的。  关键词:ASP.NET;XML;管理系统  中图分类号:TP315 文献标识码:A 文章编号:1009-3044(2008)13-20708-03
期刊
摘要:强化学习使agent具有在线自主学习能力,该文介绍了MDP模型下的自适应动态规划、时序差分学习、Q-学习等几种典型agent强化学习方法,并从基本思想、学习内容、收敛速度、可扩展性等方面对它们进行了对比分析。  关键词:MDP;自适应动态规划;时序差分学习;Q-学习  中图分类号:G424 文献标识码:A 文章编号:1009-3044(2008)13-20774-03
期刊
摘要:通过SQL语句优化后查询速度可以得到有效的提升。  关键词:SQL语句;查询速度;查询优化  中图分类号:TP311文献标识码:A 文章编号:1009-3044(2008)20-30200-01  SQL Statement in Improving the Optimization of Data Query  MA Li-ming, WANG Shou-tao, XU Yan-lei  
期刊
摘要:配置是VHDL语言的一个基本设计单元,用来为设计实体指定综合或仿真时采用的结构体。论文结合教学实际讨论了VHDL语言中配置语句的常用的三种用法:默认配置、元件配置和结构配置。论文首先论述了每种配置语句的格式,然后以数字电路中的半加器和全加器的VHDL描述为例,说明每种配置语句格式的使用方法。最后对论文内容进行归纳并得出几点结论。论文对VHDL语言教学及基于VHDL层次化电路设计都具有一定的指
期刊
摘要:对继电保护装置中模数转换电路进行了探讨,提出了以AD7856芯片为功能核心,DSP芯片TMS320VC33作为控制的具体硬件实现电路和软件设计流程。试验表明该电路满足设计要求,保护电流、电压测量精度达到3%,测量电流精度达到0.2%。  关键字:继电保护;AD7865;采样频率  中图分类号:TM771 文献标识码: 文章编号:1009-3044(2008)13-20764-03
期刊