数据仓库技术在图书馆信息资源整合中的应用研究

来源 :硅谷 | 被引量 : 0次 | 上传用户:jiangliang87
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:高校图书馆的信息资源普遍存在文献类型多、存储介质多、操作系统多、检索途径多等异质异构现象,如何将由于平台与数据源的殊异而造成的孤岛形态的信息资源加以有效整合,就显得尤为重要。提出一种基于数据仓库技术的信息资源整合方案。
  关键词:数据仓库;信息资源整合
  中图分类号:G25 文献标识码:A 文章编号:1671-7597(2010)1020081-02
  
  在当前的数字图书馆建设中,实现图书馆信息资源的数字化只能说是数字图书馆建设的第一步,数字图书馆信息资源建设的发展方向应该是通过对图书馆信息资源进行积极整合与开发,充分挖掘图书馆信息资源中的知识内涵,实现图书馆信息的有序化和网络化。如果数字图书馆的信息资源建设仅仅停留在对图书馆信息资源进行数字化转换,势必影响图书馆信息资源的充分利用和信息资源共享。因此,要对图书馆信息资源的知识内容进行组合与扩充,纵向挖掘和横向开发相关的信息资源并与之整合,把用不同技术开发的不同内容和不同形式的数字图书馆信息资源整合起来,以提供最大的利用服务。
  
  1 信息资源的整合
  
  信息资源的整合是对于分散异构信息资源体系,在兼顾信息资源现有配置与管理状况的条件下,实现无缝集成,在新的信息交换与共享平台上,开发新应用,实现信息资源的最大增值。它是将异构分散的非结构化数据(文本、表格、静态图片、动态图像、波形等文件)、异构的结构化数据(数据库等)管理利用,集成不同应用系统(SCM、ERP、CRM等),为所有者提供更高的资源管理、挖掘、展现手段的过程和方法。
  它的作用主要体现在:
  1)提供决策支持。经过整合后的信息资源不再是逻辑上无联系的游离信息,可以通过整合系统的提取、净化、转换和加载形成网络型关系信息,比如综合报表、定制信息,提供不同视角的呈现方式,从而为决策者提供宏观的审视效果和决策依据。
  2)提升现有信息系统的效能。通过信息资源的整合,实现了工作人员之间、应用系统之间的协同工作:综合利用现有信息资源,提高数据使用串:为操作员提供个性化界面管理自己需要的信息,屏蔽了无效信息,提高了工作效率。
  3)推进信息化建设,通过整合技术解决了不同应用系统、异构数据库间的集成问题,可以继续分步骤推进信息化建设,在此进程中逐渐提高信息技术水平,进而增强对信息化建设的掌控能力。
  
  2 基于数据仓库的信息资源整合
  
  理论界与业界均对信息资源整合提出了多种思路与方案,在此不再逐一赘述。笔者拟从“数据仓库”来探讨信息资源整合问题。
  
  2.1数据仓库的定义
  对于数据仓库的定义很多,但以William H.Inmon在他的著作《数据仓库》中的定义最为典型:数据仓库是一个面向主题的、集成的、非易失的、随时间变化的用来支持经营管理中决策的数据集合。从定义可以看出数据仓库有这样四个基本特征。
  1)数据仓库的数据是面向主题的
  所谓一个主题,在逻辑意义上,对应企业中宏观分析领域所涉及的某一个分析对象。“主题”在数据仓库中是由一系列表(Table)实现的,这些表通过公共码键联系起来,但它们应该根据用户对主题中不同表的关心程度不同分别存储在不同的存储设备中。主题的划分必须保证每个主题的独立性,而且需要保证对主题进行分析时所需要的数据都可以在此主题内找到。此外,面向主题的数据组织可以独立于数据的处理逻辑。
  2)数据仓库的数据是集成的
  数据仓库的集成性是指根据决策分析的要求,将分散于各处的源数据进行抽取、筛选、清理、综合等集成工作,使数据仓库中的数据具有集成性。
  3)数据仓库是不可更新的
  数据仓库不可更新是指数据仓库的用户进行分析处理时是不进行数据更新(修改)操作的,但并不是说在数据仓库的整个生命周期中数据集是不变的,是可以添加、刷新和删除的。
  4)数据仓库中的数据是随时间变化的
  数据仓库最根本的特点是物理地存放数据,但这些数据并不是最新的、专有的,而是来源于其它数据库。数据仓库的建立并不是要取代数据库,它要建立在一个较全面和完善的信息应用的基础上,用于支持高层决策分析,而事务处理数据库在企业的信息环境中承担的是日常操作性的任务。
  
  2.2数据仓库的体系结构
  基于元数据的信息资源整合系统的体系结构采用多层体系结构,包括数据层,交换层,综合层和应用层等四个层次。
  1)数据层。数据层实现数据的获取、建库与更新,主要包含结构化业务数据、非结构化业务数据和元数据这三类数据。
  2)交换层。交换层实现多源异构信息的集成、融合与管理,包括数据导航获取系统、数据浏览查询系统、数据转换系统、元数据管理系统、元数据检索系统等。
  3)综合层。综合层实现信息应用服务,包括应用服务层和门户服务层。其中,应用服务层包括应用服务器、数据处理服务器、应用集成服务器三类应用服务:门户服务层提供安全管理、服务管理、信息操作代理服务、搜索引擎等。
  4)应用层。应用层实现网络信息系统的各项应用功能。通过网络、各种计算机系统、用户终端可以访问信息系统,享用各项服务,实现各种具体应用。
  
  2.3数据仓库的应用技术
  数据仓库技术在数字图书馆的信息资源集中管理方面有着重要的应用价值。信息资源集中管理的核心技术包括联机处理分析(OLAP)、数据挖掘(DM)及搜索引擎(SE)等。
  1)联机分析处理
  OLAP是针对特定问题的联机数据访问与分析,能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的并真实反映单位维特性的信息进行快速、一致、交互地存取,从而获得对数据更深入了解的技术,OLAP的最显著特征是能提供数据的多维概念视图。在OLAP数据模型中,多维信息被抽象为一个立方体,它包括维和度量。维就是我们所说的观察角度,度量是上面说的指标值,多维结构是OLAP的核心。OLAP的第二个特性是它能快速响应用户的分析需求。一般认为OLAP系统在几秒内对用户的分析请求做出响应。OLAP的第三个特征是它的分析功能。这是指OLAP系统可以提供给用户强大的统计、分析及报表处理功能。此外,OLAP系统还具有回答“假如一分析(”What-it)问题的功能及进行趋势预测分析的能力。OLAP的第四个特征是它的信息性。无论数据量有多大,也不管数据存储在何处,OLAP系统应能及时获得信息。
  2)数据挖掘
  数据挖掘(DM)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。其主要目的是帮助决策者寻找数据间潜在的关联,发现被忽略的因素。根据信息存储格式,用于挖掘的对象有关系数据库、面向对象数据库、数据仓库、文本数据源、多媒体数据库、空间数据 库、时态数据库、异质数据库以及Internet等。
  数据挖掘的任务主要是关联分析、聚类分析、分类、预测、时序模式和偏差分析等:两个或两个以上变量的取值之间存在某种规律性,就称为关联,关联分析的目的是找出数据库中隐藏的关联网;聚类是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异,聚类分析可以建立宏观的概念,发现数据的分布模式,以及可能的数据属性之间的相互关系;分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示:预测是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测:时序模式是指通过时间序列搜索出的重复发生概率较高的模式,与回归一样,它也是用己知的数据预测未来的值,但这些数据的区别是变量所处时间的不同;在偏差中包括很多有用的知识,数据库中的数据存在很多异常情况,发现数据库中数据存在的异常情况是非常重要的,偏差检验的基本方法就是寻找观察结果与参照之间的差别。
  3)搜索引擎
  搜索引擎(search engine)是指根据一定的策略、运用特定的计算机程序搜集互联网上的信息,在对信息进行组织和处理后,并将处理后的信息显示给用户,是为用户提供检索服务的系统。网络信息资源庞杂无序,变化无常通过,搜索Internet来提炼数据收效甚微,只有实现非结构化数据到数据仓库的抽取,搜索引擎才会释放出非结构化数据的真正价值。
  
  3 数据仓库的设计
  
  数据仓库作为整个架构的核心部分,在整个架构中起着非常重要的作用,是图书馆资源整合支持系统的基础,是整个系统的数据来源,数据仓库设计的好坏,直接影响到整个系统的运转。
  1)创建物理数据模型。创建物理数据模型要从逻辑模型入手,使物理模型尽可能地反映逻辑模型情况,它包括详细的物理数据库特征规范,从数据类型开始,接着依次是表的分割、表存储参数的设定以及磁盘的条状化等。可以考虑使用较合适的数据建模工具来存储关系型数据库的模型结构,开发物理数据模型,继而创建数据库实例并装载数据、维度表以及事实表。
  2)设计用户端的应用。整合系统成功与否很大程度上取决于用户对系统使用的效果。因此,用户端的设计需慎重考量。一般而言,用户对系统出口的访问方式主要有:即时查询检索、报表生成、联机分析处理(OLAP)以及数据挖掘(DM)等,用户可以通过WEB浏览器或其他前端工具(如Excel、SAS、SPSS等)远程或本地访问基于数据仓库的应用服务器。
  
  4 结语
  
  基于数据仓库的信息资源的整合,使得系统内部能够多种业务应用系统、多种异构数据源并存,实现异构数据源的动态及时互访,以及信息的挖掘与综合利用。它并不排斥新的应用系统的加入,因此也具备一定的可扩展性,能够满足一定时期内信息系统建设的需要。
其他文献
0 引言    Oracle作为业界运用最为广泛的数据库管理系统,在高效性、稳定性和扩展性方面较之其它的数据库管理系统有着更为出色的表现。本文通过Oump的方法,在对基表数据进行插入,删除,更新时,如何维护lndex内部信息。
据美国每日科学、物理学家组织网近日报道,美国俄勒冈州立大学研究人员在纳米弹簧中成功地放置了生物分子,该纳米弹簧在微型反应器中能最大限度地扩张药品同其他物质接触的表面积。它可作为一种高效催化剂载体,大大加快化学反应速度。详细研究成果发表在《生物技术进展》杂志上。  在纳米技术的大家族中,纳米弹簧可谓“初生牛犊”。之前,科学家着重研究了它在工程技术方面的应用。比如竖直均衡,盘卷一致的纳米弹簧能作为良好
期刊
自1993年陕西省第一家孵化器西安高新区创业服务中心在西安高新区成立以来,该省科技企业孵化器不断成长壮大,目前综合指标已位居全国前列,为促进该省科技成果转化,孵化和培育中小科技型企业,加快高新技术产业的发展,振兴区域经济,培养新的经济增长点发挥了重要作用。  陕西省委科技工委书记、陕西省科技厅厅长张炜接受记者采访时说,陕西省科技企业孵化器经过多年的凝练,提升和发展,目前具有以下几个特点:一是数量规
本实验室前期研究发现猪瘟病毒C株特异的TCR Vα5和TCR Vβ6基因家族,为进一步研究其体外表达情况,应用RT-PCR从猪外周血单个核细胞中扩增其全长基因序列,并构建TCR Vα5-pIR
优点:造型设计独特,免驱动使用方便,成像效果不错.rn缺点:球形支撑轴容易松动,使用过程中不建议经常更换支架.rn天敏“子弹头”免驱版的外形很有特色,摄像头的主体部分与“弹
有关研究人员报告说,人在出生后,心脏细胞还能够分裂并成长.这一令人惊讶的发现,大大增加了一种可能性,即可把这些细胞移植到由于心脏病发作而受到伤害的心脏中以修补缺损.心
在全市建设智慧城市的大合唱中,慈溪将重点依托现有产业基础,全力打造6大特色智慧产业基地,强化智慧系统在经济社会各个领域的应用,建设更有竞争力的“智慧慈溪”。  依托现有的“国家火炬计划宁波慈溪智能新型家电特色产业基地”,慈溪将建设智能家电研发推广基地,引导企业在产品中植入标准控制模块,加快形成以智能家电、网络控制器、嵌入式控制系统等为重点的智能家电产业链。  以浙大网新慈溪智慧谷为依托,慈溪将充分
为了解山西省鸡传染性法氏囊病病毒(IBDV)流行毒株的遗传变异规律,将近5年来采集自山西不同地区发病鸡群的法氏囊组织病料,通过接种易感雏鸡分离出15株 IBDV。用绒毛尿囊膜接种法
为探究内皮素(ET)对羊生理生化指标的影响,选取5只新疆哈萨克公羊,采用不完全拉丁方试验设计,每只羊一次性静脉注射0.7 nmol/kg ET-1或 ET-3,对照组注射1 g/L BSA 生理盐水。结果显示,