论文部分内容阅读
摘要:介绍数据仓库的概念,通过数据仓库、数据挖掘技术,创建数据挖掘模型,实现了图书流通分析系统,为图书馆管理者提供了决策支持。
关键词:数据仓库;流通分析;数据挖掘;图书馆
中图分类号:TP311文献标识码:A 文章编号:1009-3044(2008)20-30201-03
Research and Application of Books Circulation Analysis System Based on Data Warehouse
DAI Bin,WU Zhi-kai,CHEN Chao-xiang
(Zhejiang Shuren University,Information Technology College, Hangzhou 310015,China)
Abstract: the paper introduces the concept of data warehouse, and creates data mining model,and realizes the Books Circulation Analysis System to provide support for library manager's decision-making.
Key words:data warehouse; Circulation Analysis System; data mining; Ontology;Library
1 引言
近年来,随着图书馆技术的发展,信息处理技术也得到迅速的发展,信息的检索、查找更加平凡,我校图书馆自建校到2008年5月,图书资源管藏量已超过100万册。图书数目以如此速度的发展,图书的种类如此多样化,需要更好的数据管理技术。而目前的计算机处理能力用传统的数据库无法完成这样类型的处理。管理人员无法从傳统的数据库处理中提取更有用,更快捷,更有利于决策的信息。数据仓库技术便应运而生了。
2 数据仓库的概念
1992年美国著名的信息工程学家WH.Inmon在《Building the data Warehouse》(《建立数据仓库》)一书中首先系统阐述了关于数据仓库的思想理论。他在这本书中不仅仅说明为什么要建立数据仓库以及数据仓库能给你带来什么,更重要的是Inmon第一次提供了如何建立数据仓库的指导性意见。[1]数据仓库是对数据进行多层次的数据分析,数据仓库用于支持决策,面向分析型数据处理。
数据仓库是以循序渐进的方式逐步发展起来的。近年来,数据仓库已经在图书馆的发展中起到了广泛的应用。早先,在图书馆领域中,基本上都是通过报表的形式或者是小性的数据仓库来管理的。这些小型的数据管理系统不能对图书馆的管理和决策很少或者根本起不到作用。数据仓库提供的信息极大地改善了这些方面的决策质量。然而,在当今竞争异常激烈的商业环境中,优秀的战略仅仅是成功的诸多要素之一。若不能付诸有效的实施,任何战略都将是一纸空文。
新一代的数据仓库的提出和发展,将对图书馆的管理和有效的决策起到不可预测的帮助。
数据挖掘(Data Mining)是指从大量结构化和非结构化的数据中提取有用的信息和知识的过程,它是知识发现的有效手段。该概念出现在1989年举行的第11届国际联合人工智能学术会议上,人们首次提出了数据库中的知识发现(Knowledge Discovery in DataBase,KDD)技术,并且直到1995年,人们才在美国计算机年会(Assciation for Computiny Machihery,ACM)上首次提出数据挖掘概念。[2]数据挖掘就是在大量的数据中提取规律或数据间的关系。
3 采取的基本思路和技术实现方法
在 SQL Server 2005 中设计商业智能应用程序时,首先根据 Analysis Services 项目模板,创建SSAS项目。在创建了 Analysis Services 项目后,再定义一个或多个数据源。然后,根据选自数据源的表或视图,定义名为“数据源视图”的单个元数据统一视图。
3.1 数据源
在SQL Server 2005的定义是Reporting Services 数据源包含数据库连接的有关信息。包括服务器名称、数据库名称和用户凭据。数据源内包含的信息因数据库类型而异一个数据源可以只用于一个报表中,也可以由多个报表共享。
3.2 创建维度
所有维度均基于数据源视图中的各个表或视图。在使用数据源生成中的自动生成创建属性和层次结构。通过多维数据集可以更具体的看出个表间的关系。在本题中多维数据集如图1。
3.3 数据仓库
数据仓库的目的是组织大量的稳定数据以便于分析和检索,采用简化的结构组织数据,以便提高分析查询的效率,而不是为了进行事务处理,利用ontology建模方法对多种数据来源进行预处理,使之规范化,并实现数据的有效集成。
3.4 数据分析和挖掘
使用数据挖掘模型之前必须先对它们进行处理,可将定型数据传递算法来填充模型。利用各种分析挖掘工具,决策者可以作出正确的决策。根据数据挖掘向导创建机遇基于Microsoft 时序算法的挖掘结构和初始关联挖掘模型。主要的方法有决策树、关联规则、神经元网络、逻辑回归、时序、线性回归等。
4 采用决策树算法实现数据挖掘
4.1 采用的数据挖掘算法
在SQL Server 2005中有提供了决策树、关联规则、神经元网络、逻辑回归、时序、线性回归等一系列算法。Microsoft决策树算法是由SSAS提供的分类和回归算法,用于对离散和连续属性进行预测性建模。本系统只要采用的是Microsoft决策树算法来实现数据挖掘。
图2 决策树的图
4.2 测试挖掘模型的准确性
在SQL Server 2005中,可以根据数据挖掘模型“提升图”通过与理想的数据线分布计算出挖掘模型的精度。通过与理想数据线分布的对比,计算出挖掘模型的精度。
图3 数据挖掘提升图
3.3数据挖掘中的数据关系
数据挖掘中的关键是各个数据间的关系,通过从大量的,不完全的数据中,提取有用的信息和潜在的规律,从而提供有用的决策。在本题中数据的关系如图3所示。
图4 数据关系图
5 数据仓库在图书馆的应用
近年来数据仓库在图书馆中的应用越来越广泛因为数据仓库在图书馆的应用中有以下优点:
5.1 数据仓库对读者需求分布的分析
数据仓库对读者的分布了解读者起到非常重要的作用。在大学的学习生活中,师生关系的距离越来越远,老师了解学生的习惯与要求也就越来越少,数据仓库在这方面起到了非常重要的作用。主要包括,可以通过读者的专业,多年来读者借阅情况等多方面综合分析,清楚读者的取向和兴趣。能为学校的教育,老师对学生的了解,提供支持和帮助。了解读者的兴趣和爱好,可以适当增加这方面的图书,为学生的学习提供方便。根据图书的流通,为图书馆的领导了解工作人员的工作效率,以及指定一些决策提供科学性的依据,合理的安排人员和作息时间
5.2 数据仓库对图书和期刊的剔除和采购分析提供决策
图书的剔除和采购是图书馆更新信息的重要方面。只有提够正确的图书信息才能正确的更新图书,只有正确的更新图书馆的信息,才能使图书馆跟上现代化的发展。在这方面数据仓库起到了非常重要的作用,通过数据仓库的分析,统计出长时间的没有通过流通的书籍,统计出呆滞书目,进行剔除处理,通过数据仓库的分析,对图书的采购提供正确合理的决策。合理的采购可以避免重复采购可以减少财力的浪费。
6 结束语
数据仓库在先阶段的为图书馆的发展中起到了重要的作用,在以后的发展中同样可以为数字图书馆的建立和发展提供技术支持,作为图书馆的未来发展趋势,数字图书馆在研究和发展中遭遇重重困难,数据仓库、数据挖掘技术在这方面有巨大潜力,可以起到关键作用。虽然数据仓库技术在图书馆领域的发展还处于初级阶段,但它在这方面的优势和挖掘能力,将显示出它的巨大潜力和广阔的应用前景。
参考文献:
[1] 安淑芝.数据仓库与数据挖掘[M].清华大学出版社.2005(6).2-3.
[2] 苏新宁,杨建林,江念南, 栗湘.数据仓库和数据挖掘[M]. 清华大学出版社.2006(4).114-115.
[3] 王珊.数据仓库和联机分析处理[M].科学出版社.1998.
[4] 吴隆基.维度建模技术在构建图书馆数据仓库中的应用[J].情报科学.2005.23(4).
关键词:数据仓库;流通分析;数据挖掘;图书馆
中图分类号:TP311文献标识码:A 文章编号:1009-3044(2008)20-30201-03
Research and Application of Books Circulation Analysis System Based on Data Warehouse
DAI Bin,WU Zhi-kai,CHEN Chao-xiang
(Zhejiang Shuren University,Information Technology College, Hangzhou 310015,China)
Abstract: the paper introduces the concept of data warehouse, and creates data mining model,and realizes the Books Circulation Analysis System to provide support for library manager's decision-making.
Key words:data warehouse; Circulation Analysis System; data mining; Ontology;Library
1 引言
近年来,随着图书馆技术的发展,信息处理技术也得到迅速的发展,信息的检索、查找更加平凡,我校图书馆自建校到2008年5月,图书资源管藏量已超过100万册。图书数目以如此速度的发展,图书的种类如此多样化,需要更好的数据管理技术。而目前的计算机处理能力用传统的数据库无法完成这样类型的处理。管理人员无法从傳统的数据库处理中提取更有用,更快捷,更有利于决策的信息。数据仓库技术便应运而生了。
2 数据仓库的概念
1992年美国著名的信息工程学家WH.Inmon在《Building the data Warehouse》(《建立数据仓库》)一书中首先系统阐述了关于数据仓库的思想理论。他在这本书中不仅仅说明为什么要建立数据仓库以及数据仓库能给你带来什么,更重要的是Inmon第一次提供了如何建立数据仓库的指导性意见。[1]数据仓库是对数据进行多层次的数据分析,数据仓库用于支持决策,面向分析型数据处理。
数据仓库是以循序渐进的方式逐步发展起来的。近年来,数据仓库已经在图书馆的发展中起到了广泛的应用。早先,在图书馆领域中,基本上都是通过报表的形式或者是小性的数据仓库来管理的。这些小型的数据管理系统不能对图书馆的管理和决策很少或者根本起不到作用。数据仓库提供的信息极大地改善了这些方面的决策质量。然而,在当今竞争异常激烈的商业环境中,优秀的战略仅仅是成功的诸多要素之一。若不能付诸有效的实施,任何战略都将是一纸空文。
新一代的数据仓库的提出和发展,将对图书馆的管理和有效的决策起到不可预测的帮助。
数据挖掘(Data Mining)是指从大量结构化和非结构化的数据中提取有用的信息和知识的过程,它是知识发现的有效手段。该概念出现在1989年举行的第11届国际联合人工智能学术会议上,人们首次提出了数据库中的知识发现(Knowledge Discovery in DataBase,KDD)技术,并且直到1995年,人们才在美国计算机年会(Assciation for Computiny Machihery,ACM)上首次提出数据挖掘概念。[2]数据挖掘就是在大量的数据中提取规律或数据间的关系。
3 采取的基本思路和技术实现方法
在 SQL Server 2005 中设计商业智能应用程序时,首先根据 Analysis Services 项目模板,创建SSAS项目。在创建了 Analysis Services 项目后,再定义一个或多个数据源。然后,根据选自数据源的表或视图,定义名为“数据源视图”的单个元数据统一视图。
3.1 数据源
在SQL Server 2005的定义是Reporting Services 数据源包含数据库连接的有关信息。包括服务器名称、数据库名称和用户凭据。数据源内包含的信息因数据库类型而异一个数据源可以只用于一个报表中,也可以由多个报表共享。
3.2 创建维度
所有维度均基于数据源视图中的各个表或视图。在使用数据源生成中的自动生成创建属性和层次结构。通过多维数据集可以更具体的看出个表间的关系。在本题中多维数据集如图1。
3.3 数据仓库
数据仓库的目的是组织大量的稳定数据以便于分析和检索,采用简化的结构组织数据,以便提高分析查询的效率,而不是为了进行事务处理,利用ontology建模方法对多种数据来源进行预处理,使之规范化,并实现数据的有效集成。
3.4 数据分析和挖掘
使用数据挖掘模型之前必须先对它们进行处理,可将定型数据传递算法来填充模型。利用各种分析挖掘工具,决策者可以作出正确的决策。根据数据挖掘向导创建机遇基于Microsoft 时序算法的挖掘结构和初始关联挖掘模型。主要的方法有决策树、关联规则、神经元网络、逻辑回归、时序、线性回归等。
4 采用决策树算法实现数据挖掘
4.1 采用的数据挖掘算法
在SQL Server 2005中有提供了决策树、关联规则、神经元网络、逻辑回归、时序、线性回归等一系列算法。Microsoft决策树算法是由SSAS提供的分类和回归算法,用于对离散和连续属性进行预测性建模。本系统只要采用的是Microsoft决策树算法来实现数据挖掘。
图2 决策树的图
4.2 测试挖掘模型的准确性
在SQL Server 2005中,可以根据数据挖掘模型“提升图”通过与理想的数据线分布计算出挖掘模型的精度。通过与理想数据线分布的对比,计算出挖掘模型的精度。
图3 数据挖掘提升图
3.3数据挖掘中的数据关系
数据挖掘中的关键是各个数据间的关系,通过从大量的,不完全的数据中,提取有用的信息和潜在的规律,从而提供有用的决策。在本题中数据的关系如图3所示。
图4 数据关系图
5 数据仓库在图书馆的应用
近年来数据仓库在图书馆中的应用越来越广泛因为数据仓库在图书馆的应用中有以下优点:
5.1 数据仓库对读者需求分布的分析
数据仓库对读者的分布了解读者起到非常重要的作用。在大学的学习生活中,师生关系的距离越来越远,老师了解学生的习惯与要求也就越来越少,数据仓库在这方面起到了非常重要的作用。主要包括,可以通过读者的专业,多年来读者借阅情况等多方面综合分析,清楚读者的取向和兴趣。能为学校的教育,老师对学生的了解,提供支持和帮助。了解读者的兴趣和爱好,可以适当增加这方面的图书,为学生的学习提供方便。根据图书的流通,为图书馆的领导了解工作人员的工作效率,以及指定一些决策提供科学性的依据,合理的安排人员和作息时间
5.2 数据仓库对图书和期刊的剔除和采购分析提供决策
图书的剔除和采购是图书馆更新信息的重要方面。只有提够正确的图书信息才能正确的更新图书,只有正确的更新图书馆的信息,才能使图书馆跟上现代化的发展。在这方面数据仓库起到了非常重要的作用,通过数据仓库的分析,统计出长时间的没有通过流通的书籍,统计出呆滞书目,进行剔除处理,通过数据仓库的分析,对图书的采购提供正确合理的决策。合理的采购可以避免重复采购可以减少财力的浪费。
6 结束语
数据仓库在先阶段的为图书馆的发展中起到了重要的作用,在以后的发展中同样可以为数字图书馆的建立和发展提供技术支持,作为图书馆的未来发展趋势,数字图书馆在研究和发展中遭遇重重困难,数据仓库、数据挖掘技术在这方面有巨大潜力,可以起到关键作用。虽然数据仓库技术在图书馆领域的发展还处于初级阶段,但它在这方面的优势和挖掘能力,将显示出它的巨大潜力和广阔的应用前景。
参考文献:
[1] 安淑芝.数据仓库与数据挖掘[M].清华大学出版社.2005(6).2-3.
[2] 苏新宁,杨建林,江念南, 栗湘.数据仓库和数据挖掘[M]. 清华大学出版社.2006(4).114-115.
[3] 王珊.数据仓库和联机分析处理[M].科学出版社.1998.
[4] 吴隆基.维度建模技术在构建图书馆数据仓库中的应用[J].情报科学.2005.23(4).