论文部分内容阅读
摘 要:高校图书馆的信息资源普遍存在文献类型多、存储介质多、操作系统多、检索途径多等异质异构现象,如何将由于平台与数据源的殊异而造成的孤岛形态的信息资源加以有效整合,就显得尤为重要。提出一种基于数据仓库技术的信息资源整合方案。
关键词:数据仓库;信息资源整合
中图分类号:G25 文献标识码:A 文章编号:1671-7597(2010)1020081-02
在当前的数字图书馆建设中,实现图书馆信息资源的数字化只能说是数字图书馆建设的第一步,数字图书馆信息资源建设的发展方向应该是通过对图书馆信息资源进行积极整合与开发,充分挖掘图书馆信息资源中的知识内涵,实现图书馆信息的有序化和网络化。如果数字图书馆的信息资源建设仅仅停留在对图书馆信息资源进行数字化转换,势必影响图书馆信息资源的充分利用和信息资源共享。因此,要对图书馆信息资源的知识内容进行组合与扩充,纵向挖掘和横向开发相关的信息资源并与之整合,把用不同技术开发的不同内容和不同形式的数字图书馆信息资源整合起来,以提供最大的利用服务。
1 信息资源的整合
信息资源的整合是对于分散异构信息资源体系,在兼顾信息资源现有配置与管理状况的条件下,实现无缝集成,在新的信息交换与共享平台上,开发新应用,实现信息资源的最大增值。它是将异构分散的非结构化数据(文本、表格、静态图片、动态图像、波形等文件)、异构的结构化数据(数据库等)管理利用,集成不同应用系统(SCM、ERP、CRM等),为所有者提供更高的资源管理、挖掘、展现手段的过程和方法。
它的作用主要体现在:
1)提供决策支持。经过整合后的信息资源不再是逻辑上无联系的游离信息,可以通过整合系统的提取、净化、转换和加载形成网络型关系信息,比如综合报表、定制信息,提供不同视角的呈现方式,从而为决策者提供宏观的审视效果和决策依据。
2)提升现有信息系统的效能。通过信息资源的整合,实现了工作人员之间、应用系统之间的协同工作:综合利用现有信息资源,提高数据使用串:为操作员提供个性化界面管理自己需要的信息,屏蔽了无效信息,提高了工作效率。
3)推进信息化建设,通过整合技术解决了不同应用系统、异构数据库间的集成问题,可以继续分步骤推进信息化建设,在此进程中逐渐提高信息技术水平,进而增强对信息化建设的掌控能力。
2 基于数据仓库的信息资源整合
理论界与业界均对信息资源整合提出了多种思路与方案,在此不再逐一赘述。笔者拟从“数据仓库”来探讨信息资源整合问题。
2.1数据仓库的定义
对于数据仓库的定义很多,但以William H.Inmon在他的著作《数据仓库》中的定义最为典型:数据仓库是一个面向主题的、集成的、非易失的、随时间变化的用来支持经营管理中决策的数据集合。从定义可以看出数据仓库有这样四个基本特征。
1)数据仓库的数据是面向主题的
所谓一个主题,在逻辑意义上,对应企业中宏观分析领域所涉及的某一个分析对象。“主题”在数据仓库中是由一系列表(Table)实现的,这些表通过公共码键联系起来,但它们应该根据用户对主题中不同表的关心程度不同分别存储在不同的存储设备中。主题的划分必须保证每个主题的独立性,而且需要保证对主题进行分析时所需要的数据都可以在此主题内找到。此外,面向主题的数据组织可以独立于数据的处理逻辑。
2)数据仓库的数据是集成的
数据仓库的集成性是指根据决策分析的要求,将分散于各处的源数据进行抽取、筛选、清理、综合等集成工作,使数据仓库中的数据具有集成性。
3)数据仓库是不可更新的
数据仓库不可更新是指数据仓库的用户进行分析处理时是不进行数据更新(修改)操作的,但并不是说在数据仓库的整个生命周期中数据集是不变的,是可以添加、刷新和删除的。
4)数据仓库中的数据是随时间变化的
数据仓库最根本的特点是物理地存放数据,但这些数据并不是最新的、专有的,而是来源于其它数据库。数据仓库的建立并不是要取代数据库,它要建立在一个较全面和完善的信息应用的基础上,用于支持高层决策分析,而事务处理数据库在企业的信息环境中承担的是日常操作性的任务。
2.2数据仓库的体系结构
基于元数据的信息资源整合系统的体系结构采用多层体系结构,包括数据层,交换层,综合层和应用层等四个层次。
1)数据层。数据层实现数据的获取、建库与更新,主要包含结构化业务数据、非结构化业务数据和元数据这三类数据。
2)交换层。交换层实现多源异构信息的集成、融合与管理,包括数据导航获取系统、数据浏览查询系统、数据转换系统、元数据管理系统、元数据检索系统等。
3)综合层。综合层实现信息应用服务,包括应用服务层和门户服务层。其中,应用服务层包括应用服务器、数据处理服务器、应用集成服务器三类应用服务:门户服务层提供安全管理、服务管理、信息操作代理服务、搜索引擎等。
4)应用层。应用层实现网络信息系统的各项应用功能。通过网络、各种计算机系统、用户终端可以访问信息系统,享用各项服务,实现各种具体应用。
2.3数据仓库的应用技术
数据仓库技术在数字图书馆的信息资源集中管理方面有着重要的应用价值。信息资源集中管理的核心技术包括联机处理分析(OLAP)、数据挖掘(DM)及搜索引擎(SE)等。
1)联机分析处理
OLAP是针对特定问题的联机数据访问与分析,能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的并真实反映单位维特性的信息进行快速、一致、交互地存取,从而获得对数据更深入了解的技术,OLAP的最显著特征是能提供数据的多维概念视图。在OLAP数据模型中,多维信息被抽象为一个立方体,它包括维和度量。维就是我们所说的观察角度,度量是上面说的指标值,多维结构是OLAP的核心。OLAP的第二个特性是它能快速响应用户的分析需求。一般认为OLAP系统在几秒内对用户的分析请求做出响应。OLAP的第三个特征是它的分析功能。这是指OLAP系统可以提供给用户强大的统计、分析及报表处理功能。此外,OLAP系统还具有回答“假如一分析(”What-it)问题的功能及进行趋势预测分析的能力。OLAP的第四个特征是它的信息性。无论数据量有多大,也不管数据存储在何处,OLAP系统应能及时获得信息。
2)数据挖掘
数据挖掘(DM)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。其主要目的是帮助决策者寻找数据间潜在的关联,发现被忽略的因素。根据信息存储格式,用于挖掘的对象有关系数据库、面向对象数据库、数据仓库、文本数据源、多媒体数据库、空间数据 库、时态数据库、异质数据库以及Internet等。
数据挖掘的任务主要是关联分析、聚类分析、分类、预测、时序模式和偏差分析等:两个或两个以上变量的取值之间存在某种规律性,就称为关联,关联分析的目的是找出数据库中隐藏的关联网;聚类是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异,聚类分析可以建立宏观的概念,发现数据的分布模式,以及可能的数据属性之间的相互关系;分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示:预测是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测:时序模式是指通过时间序列搜索出的重复发生概率较高的模式,与回归一样,它也是用己知的数据预测未来的值,但这些数据的区别是变量所处时间的不同;在偏差中包括很多有用的知识,数据库中的数据存在很多异常情况,发现数据库中数据存在的异常情况是非常重要的,偏差检验的基本方法就是寻找观察结果与参照之间的差别。
3)搜索引擎
搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,并将处理后的信息显示给用户,是为用户提供检索服务的系统。网络信息资源庞杂无序,变化无常通过,搜索Internet来提炼数据收效甚微,只有实现非结构化数据到数据仓库的抽取,搜索引擎才会释放出非结构化数据的真正价值。
3 数据仓库的设计
数据仓库作为整个架构的核心部分,在整个架构中起着非常重要的作用,是图书馆资源整合支持系统的基础,是整个系统的数据来源,数据仓库设计的好坏,直接影响到整个系统的运转。
1)创建物理数据模型。创建物理数据模型要从逻辑模型入手,使物理模型尽可能地反映逻辑模型情况,它包括详细的物理数据库特征规范,从数据类型开始,接着依次是表的分割、表存储参数的设定以及磁盘的条状化等。可以考虑使用较合适的数据建模工具来存储关系型数据库的模型结构,开发物理数据模型,继而创建数据库实例并装载数据、维度表以及事实表。
2)设计用户端的应用。整合系统成功与否很大程度上取决于用户对系统使用的效果。因此,用户端的设计需慎重考量。一般而言,用户对系统出口的访问方式主要有:即时查询检索、报表生成、联机分析处理(OLAP)以及数据挖掘(DM)等,用户可以通过WEB浏览器或其他前端工具(如Excel、SAS、SPSS等)远程或本地访问基于数据仓库的应用服务器。
4 结语
基于数据仓库的信息资源的整合,使得系统内部能够多种业务应用系统、多种异构数据源并存,实现异构数据源的动态及时互访,以及信息的挖掘与综合利用。它并不排斥新的应用系统的加入,因此也具备一定的可扩展性,能够满足一定时期内信息系统建设的需要。
关键词:数据仓库;信息资源整合
中图分类号:G25 文献标识码:A 文章编号:1671-7597(2010)1020081-02
在当前的数字图书馆建设中,实现图书馆信息资源的数字化只能说是数字图书馆建设的第一步,数字图书馆信息资源建设的发展方向应该是通过对图书馆信息资源进行积极整合与开发,充分挖掘图书馆信息资源中的知识内涵,实现图书馆信息的有序化和网络化。如果数字图书馆的信息资源建设仅仅停留在对图书馆信息资源进行数字化转换,势必影响图书馆信息资源的充分利用和信息资源共享。因此,要对图书馆信息资源的知识内容进行组合与扩充,纵向挖掘和横向开发相关的信息资源并与之整合,把用不同技术开发的不同内容和不同形式的数字图书馆信息资源整合起来,以提供最大的利用服务。
1 信息资源的整合
信息资源的整合是对于分散异构信息资源体系,在兼顾信息资源现有配置与管理状况的条件下,实现无缝集成,在新的信息交换与共享平台上,开发新应用,实现信息资源的最大增值。它是将异构分散的非结构化数据(文本、表格、静态图片、动态图像、波形等文件)、异构的结构化数据(数据库等)管理利用,集成不同应用系统(SCM、ERP、CRM等),为所有者提供更高的资源管理、挖掘、展现手段的过程和方法。
它的作用主要体现在:
1)提供决策支持。经过整合后的信息资源不再是逻辑上无联系的游离信息,可以通过整合系统的提取、净化、转换和加载形成网络型关系信息,比如综合报表、定制信息,提供不同视角的呈现方式,从而为决策者提供宏观的审视效果和决策依据。
2)提升现有信息系统的效能。通过信息资源的整合,实现了工作人员之间、应用系统之间的协同工作:综合利用现有信息资源,提高数据使用串:为操作员提供个性化界面管理自己需要的信息,屏蔽了无效信息,提高了工作效率。
3)推进信息化建设,通过整合技术解决了不同应用系统、异构数据库间的集成问题,可以继续分步骤推进信息化建设,在此进程中逐渐提高信息技术水平,进而增强对信息化建设的掌控能力。
2 基于数据仓库的信息资源整合
理论界与业界均对信息资源整合提出了多种思路与方案,在此不再逐一赘述。笔者拟从“数据仓库”来探讨信息资源整合问题。
2.1数据仓库的定义
对于数据仓库的定义很多,但以William H.Inmon在他的著作《数据仓库》中的定义最为典型:数据仓库是一个面向主题的、集成的、非易失的、随时间变化的用来支持经营管理中决策的数据集合。从定义可以看出数据仓库有这样四个基本特征。
1)数据仓库的数据是面向主题的
所谓一个主题,在逻辑意义上,对应企业中宏观分析领域所涉及的某一个分析对象。“主题”在数据仓库中是由一系列表(Table)实现的,这些表通过公共码键联系起来,但它们应该根据用户对主题中不同表的关心程度不同分别存储在不同的存储设备中。主题的划分必须保证每个主题的独立性,而且需要保证对主题进行分析时所需要的数据都可以在此主题内找到。此外,面向主题的数据组织可以独立于数据的处理逻辑。
2)数据仓库的数据是集成的
数据仓库的集成性是指根据决策分析的要求,将分散于各处的源数据进行抽取、筛选、清理、综合等集成工作,使数据仓库中的数据具有集成性。
3)数据仓库是不可更新的
数据仓库不可更新是指数据仓库的用户进行分析处理时是不进行数据更新(修改)操作的,但并不是说在数据仓库的整个生命周期中数据集是不变的,是可以添加、刷新和删除的。
4)数据仓库中的数据是随时间变化的
数据仓库最根本的特点是物理地存放数据,但这些数据并不是最新的、专有的,而是来源于其它数据库。数据仓库的建立并不是要取代数据库,它要建立在一个较全面和完善的信息应用的基础上,用于支持高层决策分析,而事务处理数据库在企业的信息环境中承担的是日常操作性的任务。
2.2数据仓库的体系结构
基于元数据的信息资源整合系统的体系结构采用多层体系结构,包括数据层,交换层,综合层和应用层等四个层次。
1)数据层。数据层实现数据的获取、建库与更新,主要包含结构化业务数据、非结构化业务数据和元数据这三类数据。
2)交换层。交换层实现多源异构信息的集成、融合与管理,包括数据导航获取系统、数据浏览查询系统、数据转换系统、元数据管理系统、元数据检索系统等。
3)综合层。综合层实现信息应用服务,包括应用服务层和门户服务层。其中,应用服务层包括应用服务器、数据处理服务器、应用集成服务器三类应用服务:门户服务层提供安全管理、服务管理、信息操作代理服务、搜索引擎等。
4)应用层。应用层实现网络信息系统的各项应用功能。通过网络、各种计算机系统、用户终端可以访问信息系统,享用各项服务,实现各种具体应用。
2.3数据仓库的应用技术
数据仓库技术在数字图书馆的信息资源集中管理方面有着重要的应用价值。信息资源集中管理的核心技术包括联机处理分析(OLAP)、数据挖掘(DM)及搜索引擎(SE)等。
1)联机分析处理
OLAP是针对特定问题的联机数据访问与分析,能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的并真实反映单位维特性的信息进行快速、一致、交互地存取,从而获得对数据更深入了解的技术,OLAP的最显著特征是能提供数据的多维概念视图。在OLAP数据模型中,多维信息被抽象为一个立方体,它包括维和度量。维就是我们所说的观察角度,度量是上面说的指标值,多维结构是OLAP的核心。OLAP的第二个特性是它能快速响应用户的分析需求。一般认为OLAP系统在几秒内对用户的分析请求做出响应。OLAP的第三个特征是它的分析功能。这是指OLAP系统可以提供给用户强大的统计、分析及报表处理功能。此外,OLAP系统还具有回答“假如一分析(”What-it)问题的功能及进行趋势预测分析的能力。OLAP的第四个特征是它的信息性。无论数据量有多大,也不管数据存储在何处,OLAP系统应能及时获得信息。
2)数据挖掘
数据挖掘(DM)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。其主要目的是帮助决策者寻找数据间潜在的关联,发现被忽略的因素。根据信息存储格式,用于挖掘的对象有关系数据库、面向对象数据库、数据仓库、文本数据源、多媒体数据库、空间数据 库、时态数据库、异质数据库以及Internet等。
数据挖掘的任务主要是关联分析、聚类分析、分类、预测、时序模式和偏差分析等:两个或两个以上变量的取值之间存在某种规律性,就称为关联,关联分析的目的是找出数据库中隐藏的关联网;聚类是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异,聚类分析可以建立宏观的概念,发现数据的分布模式,以及可能的数据属性之间的相互关系;分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示:预测是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测:时序模式是指通过时间序列搜索出的重复发生概率较高的模式,与回归一样,它也是用己知的数据预测未来的值,但这些数据的区别是变量所处时间的不同;在偏差中包括很多有用的知识,数据库中的数据存在很多异常情况,发现数据库中数据存在的异常情况是非常重要的,偏差检验的基本方法就是寻找观察结果与参照之间的差别。
3)搜索引擎
搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,并将处理后的信息显示给用户,是为用户提供检索服务的系统。网络信息资源庞杂无序,变化无常通过,搜索Internet来提炼数据收效甚微,只有实现非结构化数据到数据仓库的抽取,搜索引擎才会释放出非结构化数据的真正价值。
3 数据仓库的设计
数据仓库作为整个架构的核心部分,在整个架构中起着非常重要的作用,是图书馆资源整合支持系统的基础,是整个系统的数据来源,数据仓库设计的好坏,直接影响到整个系统的运转。
1)创建物理数据模型。创建物理数据模型要从逻辑模型入手,使物理模型尽可能地反映逻辑模型情况,它包括详细的物理数据库特征规范,从数据类型开始,接着依次是表的分割、表存储参数的设定以及磁盘的条状化等。可以考虑使用较合适的数据建模工具来存储关系型数据库的模型结构,开发物理数据模型,继而创建数据库实例并装载数据、维度表以及事实表。
2)设计用户端的应用。整合系统成功与否很大程度上取决于用户对系统使用的效果。因此,用户端的设计需慎重考量。一般而言,用户对系统出口的访问方式主要有:即时查询检索、报表生成、联机分析处理(OLAP)以及数据挖掘(DM)等,用户可以通过WEB浏览器或其他前端工具(如Excel、SAS、SPSS等)远程或本地访问基于数据仓库的应用服务器。
4 结语
基于数据仓库的信息资源的整合,使得系统内部能够多种业务应用系统、多种异构数据源并存,实现异构数据源的动态及时互访,以及信息的挖掘与综合利用。它并不排斥新的应用系统的加入,因此也具备一定的可扩展性,能够满足一定时期内信息系统建设的需要。