论文部分内容阅读
〔摘要〕随着社会步入高速信息时代,资源的分散性、异构性产生的资源利用困难严重影响数字资源的有效利用,迫切需要进行数字资源整合。本文从高校利用者的数字资源需求入手,结合高校数字资源的实际情况,经过对比和分析,对高校的数字资源整合系统进行设计。认为高校应当建立一站式数字资源整合平台对利用者提供服务。
〔关键词〕高校;图书馆;数字资源;整合;系统设计
DOI:10.3969/j.issn.1008-0821.2017.02.013
〔中图分类号〕G25073〔文献标识码〕A〔文章编号〕1008-0821(2017)02-0068-07
〔Abstract〕With the social development toward a high-speed information era,the dispersity and heterogeneity of resources make it hard to utilize resource,which influences effective utilization of digital resources,so digital resources integration is urgently needed.This paper started with the users requirement of digital resources in universities,analyzed and compared data by taking account of actual situation of digital resources in universities,then designed the digital resources integration system.The one-stop digital resources integration platform should be set up in universities to provide service for users.
〔Key words〕university;library;digital resource;integration;system design
對高校来说,数字资源面向的利用者是全校的科技、教育、研究工作者和学生等。对高校利用者来说,要获取图书馆藏需要登录图书馆的图书借阅查询系统;要获取文献、论文等需要登录CNKI、PUBMED等资源检索网站;要获取法律、公文、专利要访问因特网中不同的政府网站;要获取学校保存的档案和资料要登录档案查询系统;要查询课程安排要登录教学管理系统;要申报课题要登录各级课题申报网站或学校的科研管理系统等;……如此这般,分别登陆一个个不同的网站,输入不同的账号密码,查询并获得一堆不同形式的文本、数据、链接、图片、音频、视频等等数据文件,再反复查找和比对,才能获得需要的“资源”的过程严重影响科、教、研的效率和质量,高效高质服务应该意味着用户通过少量几次检索形成的检索结果就能迅速有效地定位和获得需要的资源。
1数字资源整合研究现状
信息资源整合的概念可从狭义和广义两方面理解。从狭义方面讲,它是指将某一范围内的,原本离散、多元化异构的、分布的、信息资源通过逻辑的或物理的方式组织为一个整体,使之有利于管理、利用和服务。广义的信息资源整合概念,就是把分散的资源集中起来,把无序的资源变为有序,使之方便用户,它包含了信息采集、组织、加工以及服务等过程[1]。
对于数字资源整合,早在2003年起,行业就已经开始进行较为广泛的讨论,从2007-2016年12月,共有564篇文献对数字资源整合进行了讨论。对于资源整合方法,郝欣[2]和赵英[3]等人使用基于本体的研究方法进行信息资源整合;崔伟[4]等提出基于知识链的数字资源整合方法;吕莉媛[5]提出了基于复杂网络的整合方法。
对于资源整合的实现,目前最大的困难在于海量数据存储和大数据检索。对于数据存储,当前行业内讨论最多的是Hadoop和MapReduce。郝树魁[6]、谭黔林[7]、朱莹芳[8]等人对此进行了较多的技术研究,柏雪[9]基于Hadoop设计一个分布式搜索引擎。对于数据检索,OPAC平台作为一种成熟产品,已经使图书杂志实现了资源整合,然而新技术和方法依然不断涌现。宋敏[10]、吕希艳[11]等多人介绍使用SOA架构建立检索系统;刘巧园[12]、朱倩[13]等人提出使用“中间件”来实现异构数据库的数据通信;葛微[14]提出使用Hibase技术索引建立查询系统;张秀华[15]、许爱军[16]、韩冬[17]等人提出基于Muti-Agent对图书馆、教育资源、医疗信息进行整合;伍玉成[18]提出基于SOA和Web Services进行数据集成;柴森[19]基于Web Services设计与实现了教务信息发布平台;李冬睿[20]和袁新坤[21]基于XML和Web Services实现数据交换平台的设计和实现;杨劲松[22]介绍了MOOC(慕课)的信息整合与共享模式。
2存在问题和解决方法
经过10余年的讨论,资源整合在目的、方法、技术等方面进行的讨论和研究较为丰富和全面,然而在笔者看来,依然存在许多问题未能解决。
21存在问题
高校的数字资源利用者主要是教育工作者、科技工作者、管理工作者和学生。从笔者访谈的结果显示,高校利用者需要大量各种各样的资源,包括图书、杂志、报纸、论文、网页信息、实验数据、公文、法律法规、专利、各种音频视频、图片。以科技工作者为例,从事科研工作需要的数字资源主要有:科学数据、软件工具资料、仪器设备资料、学术会议资源、交互资源、科研项目及资助信息和教育资源等[23]。而为了获取这些资源,利用者不得不分别打开不同的网页,使用不同的搜索引擎,使用和管理不同的账号和密码,以获得各种不同的信息,同时还需要向相关部门申请各种各样的服务。 对于现有的资源整合平台来说,在图书、期刊、论文、专利、公文、法律等几类数字资源上,笔者分析了国内的几大整合系统如读秀、CNKI、E读、超星发现、清华同方USP、中国高等教育文献保障系统CALIS、国家科学数字图书馆(CSDL)跨库集成检索系统Cross Search等多家检索平台,虽然各平台间在检索图形界面(GUI)、检索范围、检索结果显示等方面存在各种各样的区别,但对于已经公开发布的数字资源如书、报、杂志和论文,一站式检索在上述的检索平台上已然基本实现。
笔者访问了艾瑞深中国校友会网公布的中国大学排名靠前的学校[24],北京大学与清华大学使用了维普期刊资源整合平台;中国科学院大学、复旦大学、浙江大学、上海交通大学和北京师范大学分别设计了属于自己学校的如“资源集成发现”等整合系统;北京师范大学使用“木铎搜索”对数字资源进行一站式检索,不仅将期刊、图书、专利等数字资源进行收录,更是将学校档案资源也一并整合。各学校整合系统情况见表1。表1中国部分高校数字资源整合系统一览表
排名大学名称整合系统3中国科学院大学资源集成发现4复旦大学复旦大学图书馆资源发现系统-望道7浙江大学求是学术搜索9上海交通大学思源探索15北京师范大学木铎搜索
笔者同时访问了泰晤士高等教育发布的2016年世界大学排行榜(QS世界大学排名)中排名靠前的多所大学[25],发现其图书情报文献资源均已实现集成检索,且前10名中除美国加州理工大学(California Institute of Technology)外,均设计了不区别文献格式的检索入口。且每个大学基本都使用了自己的整合系统对本校所属的其它资源进行整合,如英国牛津大学(Oxford)使用SOLO(Search Oxford Libraries Online)检索引擎来进行检索一站式(One-stop)检索,见图1。其中论文可以阅读摘要、作者信息等基本信息,如果需要原文,可能需要支付费用,一般为每篇35左右;书报可以阅读摘要、作者信息、出版日期、出版商、ISBN号等基本信息,并提供索书号码等信息。图1牛津大学图书馆SOLO检索引擎
综合对比国外大学与国内大学的资源整合系统情况,国外大学整合系统开发较早,普及程度比较高,现已基本实现各学校内部数字资源的一站式检索和利用。而国内大学普遍开发较晚,学校内部各种数字资源的整合才刚刚起步。
22解决方法
为了向利用者提供高效、优质的服务,笔者认为,高校应该建立统一的数字资源整合系统。对于公开出版的数字资源,可以采用协议或采购的方式接入资源整合系统。对于外网其它资源如政策法规、网页链接、新闻博客等,采用内置搜索引擎或向外购搜索服务来实现。对于学校内部资源,则需要建立一个资源整合平台,以提高服务质量和效率。对学校内部资源进行整合,笔者认为有以下两种方案。
方案一:仅建立一站式检索平台,各职能部门数据库管理系统依然使用,仅通过协议接受检索平台的跨库检索,然后由检索平台统一提供,但对检索平台对数据库内数据进行操作则需要另外的授权,对于各部门数据库来说,仅需要添加标识码或关键词即可。该方法的优点是:①硬件投入少。仅需要增加检索服务器即可,不需要配置大容量数据存储器。②各部门自主性强。各部门仍能在相当程度上控制部门服务器的功能和服务,出于保密或权力许可等因素的考虑,在一定程度上符合过渡的要求。③易于转型和更改。因为系统架构和技术而导致整合系统缺乏预期运行价值时,造成的损失比较小。
缺点是:①硬件故障不可控。各部门的数据资源服务器由各自独立的数据库管理系统进行管理,这些独立的部门服务器其网络连接或者服务器本身出现的任何故障都可能导致该部分功能不能提供服务。②软件功能实现困難。数据库行业内的垄断形成已久,加上对数据安全的考虑,各种异质异构数据再搭配各种加密方法和身份验证方法,导致穿透各数据库的检索软件开发困难。③整个系统稳定性差。检索平台进行跨库检索时,尤其是跨异构数据库或者目的数据库比较庞大或者查询命令比较复杂的时候,进行检索不可避免的会出现该命令无法在系统允许的最大时限内完成,而几乎所有服务器都不会允许一项进程长时间占用系统资源,目的服务器必然要挂起(Hang On)该请求,而导致检索平台响应超时,请求被驳回,甚至系统服务崩溃。④服务项目少。只能实现检索等少数功能,无法进一步操作,如检索到空闲实验室,很难直接实现一步到位的申请。⑤前景不明。资源整合符合数字资源服务发展方向,且不说国家层面,一旦省内或者行业内进行全局资源整合,且与学校建立的资源整合平台异构异质,则还需要花费更大开销来进行转换和对接。届时数据库含量更大,情况更复杂,难度会更高。当然,随着科技的进步,更准确更稳定的分布式检索系统和分布式存储系统的建立,也许跨异构数据库的资源整合会变得更简单。
方案二:重新建立一个全校网络整合平台,将全校各职能部门的工作和数据全部并入该平台,原有数据格式经过格式转换后,存储至集中的数据仓库中。该方法的优点是:①起点高。可以直接采用最新的分布式存储(Distributed Storage)和分布式检索(Distributed Retrieval)等技术。②发展快。各职能部门基于统一整合平台进行办公,新数据以统一格式形成和保存,可以在较短时间内形成一个有规模的集成环境。③系统效率高。用户通过一次检索即可在结果界面中找到各部门对该关键词的支持结果,而且还可以直接进入某项页面,如检索到课题申报或评奖申报相关内容,进入该链接从而直接指向申报或评奖页面,这样可以极大地提高利用者的利用效率。④冗余度低。全部数据库均处于“活跃”状态,避免某个独立数据库因为各种硬件或软件原因而成为数据“孤岛”。⑤前景广阔。一旦成功整合并形成规模,将可以推广至区域或行业,以便快速形成多校整合系统或省际高校整合系统。无论是商业价值还是社会价值都十分巨大。 缺點是:①硬件设备昂贵。该平台可能需要多台高速检索服务器来提供一站式检索服务,该服务器还必须配置高容量的缓存来存储热点关键词以提升检索效率,即便使用公布式存储技术降低了存储空间的成本,然而维护、备份、恢复以及硬件淘汰等升级费用也是极大一笔开销;②软件开发费用高。新系统需要按照统一格式构建数据库,这需要大量的权衡和比较工作,最终确定一种数据库格式后,还需要将其它异构数据库进行数据转换,数据的转构和迁移已经相当费时费力,更何况还存在可能造成的数据异常。综合对比以上两种方法,笔者更倾向先用方案一来建立高校数字资源整合系统。然后逐步转换各部门的数字资源并吸收到整合系统中,最终完全淘汰各部门独立服务器,使用全校统一的数字资源整合系统实现方案二。这样在过渡时期还能在一定程度上兼顾各部门的保密或独立等要求。对比情况见表2。
表2两种方案对比表
方案花销功能硬件系统稳定性各服务有效性推广可能前景方法一较少较少资源整合服务器 检索服务器不可控不保证较小一般方法二很大齐全资源整合服务器 检索服务器 存储器稳定有效〖〗较大较好
3高校数字资源整合系统设计
基于以上构想,笔者设计了高校数字资源整合系统,现简要介绍如下。
31整合系统构造
该系统主体框架网络拓扑图见图2。图2高校数字资源整合系统网络拓扑图
311面向用户的界面设计
用户通过终端设备进入整合后的图形用户界面(GUI)来访问数字资源整合系统。用户终端设备可以是普通电脑、可以是独立终端机,甚至是手机浏览器,如果条件允许也可以开发相应的手机APP。以图书资源为例,目前检索主页上提供的检索入口有两种:一种是在页面上提供一个或多个检索入口,分别对应多个目标数据库服务器,通过指定的检索入口选定特定的目标数据库服务器进行关键词检索。目前多数图书馆的检索入口形式为此种形式,根据宋敏等人对179家公共图书馆的统计,2013年主页上无检索入口或1个检索入口的为144家,2个及以上检索入口的为25家,最多的检索入口为5个[26],这种整合实际上是形式上的整合,用户的检索需求实际上是直接提交给特定的数据库服务器,仅仅是把检索入口“整合”到同一个页面而已。第二种是通过一个检索入口即可对多个目标数据库服务器进行检索,甚至可以在检索入口旁的数据库服务器选择区勾选一个或多个目标数据库服务器进行自定义检索。
312校级检索服务器
校级检索服务器是分布式数据库管理系统的检索核心,应使用专用的检索服务器,条件允许或检索量大的应使用中间件(Middle Ware)为服务器与数据库之间的连接提供服务或交互式业务组件(Business Component)来提供检索服务。校级检索服务器的主要功能有:用户信息审核、用户权限控制、用户检索偏好收集、受理检索资源的请求、对数据库服务器定向发送检索请求、回收检索结果、整合并筛选检索结果、向用户终端显示结果等。
313目标数据库
目标数据库服务器是校级检索服务器的访问目标,它响应检索服务器并返回检索结果。就目前而言,目标数据库多为异构数据库。检索结果一般是指向特定资源服务器的资源链接。有的目标数据库可以检索多个资源服务器中的资源,有的目标数据库仅能检索单个资源服务器中的资源,多个目标数据库可能会重复检索某些资源,这样,反馈回校级检索服务器的结果就可能出现“超载与孤岛”的遴选障碍,就需要校级检索服务器对这些检索结果进行校验和分析。
314资源服务器
资源服务器的作用是按照用户的选择提供资源。资源服务器可以是一台独立的计算机,可以是大型数据中心,还可以是一个分布式存储系统,由资源提供者依照数据容量和用户的连接数等要求进行选择。资源服务器与目标数据库服务器存在一对多、多对一和多对多的关系,即一个目标数据库服务器可能管理着一个或多个资源服务器的资源链接,一个资源服务器也同样可能映射到一个或多个目标数据库服务器。资源可以是文本、图片、音频、视频形式,也可以是文件、数据库、动态链接库、压缩包等形式。其资源格式更是千差万别,常用数字资源形式中,文本有DOC、CAJ、PDF等格式,图片有BMP、JPG(JPEG)、TIFF等格式,音频有WAV、MP3等格式,视频有MPEGAVI、MP4等格式,不同格式的资源可能需要专用的解析软件,这也对用户终端解析和显示这些数字资源提出了更高的要求。
32高校数字资源整合系统工作流程
笔者设计的高校数字资源整合系统工作流程见图3。图3高校数字资源整合框架运行图
321用户登陆
用户通过电脑、智能终端、手机APP等方式登陆校级检索服务器,用户终端为该用户建立用户ID和CACHE(用于储存检索关键词、检索结果等信息),同时将登录信息发送至校级检索服务器等待审核。
322用户身份认证
校级检索服务器对用户进行审核,确定用户身份和对应的权限。审核后向用户终端返回认证信息。用户终端显示登录成功,等待用户下一步操作。
323用户提交检索需求
用户通过终端GUI的搜索框输入关键词进行搜索,用户终端根据网络协议建立包含用户ID和IP、检索范围、检索关键词等信息的数据包,向校级检索服务器提交。
324受理检索需求
检索服务器接收检索信息后,查询协议或网络数据字典,了解如何分解和使用其中的信息。通过查询服务列表(INDEX),判定把它送到哪里,或必须访问哪些计算机才能满足该要求。如果目标数据存储于系统的多个计算机上,就必须进行分布式处理,即按照分布式查询协议向关联目标数据库服务器发送检索指令。对不支持分布式查询的目标数据库服务器将依Z3950等协议向其发送检索数据包。该检索数据包内容一般包括检索ID(用于整理各数据库服务器反馈的结果)、认证信息、检索需求等。如果用户指定了一个或多个数据库,那么检索服务器将仅向指定的目标数据库服务器提交检索数据包。与此同时,以该检索信息建立和完善用户偏好数据库,用于用户自定义检索及统计分析。
〔关键词〕高校;图书馆;数字资源;整合;系统设计
DOI:10.3969/j.issn.1008-0821.2017.02.013
〔中图分类号〕G25073〔文献标识码〕A〔文章编号〕1008-0821(2017)02-0068-07
〔Abstract〕With the social development toward a high-speed information era,the dispersity and heterogeneity of resources make it hard to utilize resource,which influences effective utilization of digital resources,so digital resources integration is urgently needed.This paper started with the users requirement of digital resources in universities,analyzed and compared data by taking account of actual situation of digital resources in universities,then designed the digital resources integration system.The one-stop digital resources integration platform should be set up in universities to provide service for users.
〔Key words〕university;library;digital resource;integration;system design
對高校来说,数字资源面向的利用者是全校的科技、教育、研究工作者和学生等。对高校利用者来说,要获取图书馆藏需要登录图书馆的图书借阅查询系统;要获取文献、论文等需要登录CNKI、PUBMED等资源检索网站;要获取法律、公文、专利要访问因特网中不同的政府网站;要获取学校保存的档案和资料要登录档案查询系统;要查询课程安排要登录教学管理系统;要申报课题要登录各级课题申报网站或学校的科研管理系统等;……如此这般,分别登陆一个个不同的网站,输入不同的账号密码,查询并获得一堆不同形式的文本、数据、链接、图片、音频、视频等等数据文件,再反复查找和比对,才能获得需要的“资源”的过程严重影响科、教、研的效率和质量,高效高质服务应该意味着用户通过少量几次检索形成的检索结果就能迅速有效地定位和获得需要的资源。
1数字资源整合研究现状
信息资源整合的概念可从狭义和广义两方面理解。从狭义方面讲,它是指将某一范围内的,原本离散、多元化异构的、分布的、信息资源通过逻辑的或物理的方式组织为一个整体,使之有利于管理、利用和服务。广义的信息资源整合概念,就是把分散的资源集中起来,把无序的资源变为有序,使之方便用户,它包含了信息采集、组织、加工以及服务等过程[1]。
对于数字资源整合,早在2003年起,行业就已经开始进行较为广泛的讨论,从2007-2016年12月,共有564篇文献对数字资源整合进行了讨论。对于资源整合方法,郝欣[2]和赵英[3]等人使用基于本体的研究方法进行信息资源整合;崔伟[4]等提出基于知识链的数字资源整合方法;吕莉媛[5]提出了基于复杂网络的整合方法。
对于资源整合的实现,目前最大的困难在于海量数据存储和大数据检索。对于数据存储,当前行业内讨论最多的是Hadoop和MapReduce。郝树魁[6]、谭黔林[7]、朱莹芳[8]等人对此进行了较多的技术研究,柏雪[9]基于Hadoop设计一个分布式搜索引擎。对于数据检索,OPAC平台作为一种成熟产品,已经使图书杂志实现了资源整合,然而新技术和方法依然不断涌现。宋敏[10]、吕希艳[11]等多人介绍使用SOA架构建立检索系统;刘巧园[12]、朱倩[13]等人提出使用“中间件”来实现异构数据库的数据通信;葛微[14]提出使用Hibase技术索引建立查询系统;张秀华[15]、许爱军[16]、韩冬[17]等人提出基于Muti-Agent对图书馆、教育资源、医疗信息进行整合;伍玉成[18]提出基于SOA和Web Services进行数据集成;柴森[19]基于Web Services设计与实现了教务信息发布平台;李冬睿[20]和袁新坤[21]基于XML和Web Services实现数据交换平台的设计和实现;杨劲松[22]介绍了MOOC(慕课)的信息整合与共享模式。
2存在问题和解决方法
经过10余年的讨论,资源整合在目的、方法、技术等方面进行的讨论和研究较为丰富和全面,然而在笔者看来,依然存在许多问题未能解决。
21存在问题
高校的数字资源利用者主要是教育工作者、科技工作者、管理工作者和学生。从笔者访谈的结果显示,高校利用者需要大量各种各样的资源,包括图书、杂志、报纸、论文、网页信息、实验数据、公文、法律法规、专利、各种音频视频、图片。以科技工作者为例,从事科研工作需要的数字资源主要有:科学数据、软件工具资料、仪器设备资料、学术会议资源、交互资源、科研项目及资助信息和教育资源等[23]。而为了获取这些资源,利用者不得不分别打开不同的网页,使用不同的搜索引擎,使用和管理不同的账号和密码,以获得各种不同的信息,同时还需要向相关部门申请各种各样的服务。 对于现有的资源整合平台来说,在图书、期刊、论文、专利、公文、法律等几类数字资源上,笔者分析了国内的几大整合系统如读秀、CNKI、E读、超星发现、清华同方USP、中国高等教育文献保障系统CALIS、国家科学数字图书馆(CSDL)跨库集成检索系统Cross Search等多家检索平台,虽然各平台间在检索图形界面(GUI)、检索范围、检索结果显示等方面存在各种各样的区别,但对于已经公开发布的数字资源如书、报、杂志和论文,一站式检索在上述的检索平台上已然基本实现。
笔者访问了艾瑞深中国校友会网公布的中国大学排名靠前的学校[24],北京大学与清华大学使用了维普期刊资源整合平台;中国科学院大学、复旦大学、浙江大学、上海交通大学和北京师范大学分别设计了属于自己学校的如“资源集成发现”等整合系统;北京师范大学使用“木铎搜索”对数字资源进行一站式检索,不仅将期刊、图书、专利等数字资源进行收录,更是将学校档案资源也一并整合。各学校整合系统情况见表1。表1中国部分高校数字资源整合系统一览表
排名大学名称整合系统3中国科学院大学资源集成发现4复旦大学复旦大学图书馆资源发现系统-望道7浙江大学求是学术搜索9上海交通大学思源探索15北京师范大学木铎搜索
笔者同时访问了泰晤士高等教育发布的2016年世界大学排行榜(QS世界大学排名)中排名靠前的多所大学[25],发现其图书情报文献资源均已实现集成检索,且前10名中除美国加州理工大学(California Institute of Technology)外,均设计了不区别文献格式的检索入口。且每个大学基本都使用了自己的整合系统对本校所属的其它资源进行整合,如英国牛津大学(Oxford)使用SOLO(Search Oxford Libraries Online)检索引擎来进行检索一站式(One-stop)检索,见图1。其中论文可以阅读摘要、作者信息等基本信息,如果需要原文,可能需要支付费用,一般为每篇35左右;书报可以阅读摘要、作者信息、出版日期、出版商、ISBN号等基本信息,并提供索书号码等信息。图1牛津大学图书馆SOLO检索引擎
综合对比国外大学与国内大学的资源整合系统情况,国外大学整合系统开发较早,普及程度比较高,现已基本实现各学校内部数字资源的一站式检索和利用。而国内大学普遍开发较晚,学校内部各种数字资源的整合才刚刚起步。
22解决方法
为了向利用者提供高效、优质的服务,笔者认为,高校应该建立统一的数字资源整合系统。对于公开出版的数字资源,可以采用协议或采购的方式接入资源整合系统。对于外网其它资源如政策法规、网页链接、新闻博客等,采用内置搜索引擎或向外购搜索服务来实现。对于学校内部资源,则需要建立一个资源整合平台,以提高服务质量和效率。对学校内部资源进行整合,笔者认为有以下两种方案。
方案一:仅建立一站式检索平台,各职能部门数据库管理系统依然使用,仅通过协议接受检索平台的跨库检索,然后由检索平台统一提供,但对检索平台对数据库内数据进行操作则需要另外的授权,对于各部门数据库来说,仅需要添加标识码或关键词即可。该方法的优点是:①硬件投入少。仅需要增加检索服务器即可,不需要配置大容量数据存储器。②各部门自主性强。各部门仍能在相当程度上控制部门服务器的功能和服务,出于保密或权力许可等因素的考虑,在一定程度上符合过渡的要求。③易于转型和更改。因为系统架构和技术而导致整合系统缺乏预期运行价值时,造成的损失比较小。
缺点是:①硬件故障不可控。各部门的数据资源服务器由各自独立的数据库管理系统进行管理,这些独立的部门服务器其网络连接或者服务器本身出现的任何故障都可能导致该部分功能不能提供服务。②软件功能实现困難。数据库行业内的垄断形成已久,加上对数据安全的考虑,各种异质异构数据再搭配各种加密方法和身份验证方法,导致穿透各数据库的检索软件开发困难。③整个系统稳定性差。检索平台进行跨库检索时,尤其是跨异构数据库或者目的数据库比较庞大或者查询命令比较复杂的时候,进行检索不可避免的会出现该命令无法在系统允许的最大时限内完成,而几乎所有服务器都不会允许一项进程长时间占用系统资源,目的服务器必然要挂起(Hang On)该请求,而导致检索平台响应超时,请求被驳回,甚至系统服务崩溃。④服务项目少。只能实现检索等少数功能,无法进一步操作,如检索到空闲实验室,很难直接实现一步到位的申请。⑤前景不明。资源整合符合数字资源服务发展方向,且不说国家层面,一旦省内或者行业内进行全局资源整合,且与学校建立的资源整合平台异构异质,则还需要花费更大开销来进行转换和对接。届时数据库含量更大,情况更复杂,难度会更高。当然,随着科技的进步,更准确更稳定的分布式检索系统和分布式存储系统的建立,也许跨异构数据库的资源整合会变得更简单。
方案二:重新建立一个全校网络整合平台,将全校各职能部门的工作和数据全部并入该平台,原有数据格式经过格式转换后,存储至集中的数据仓库中。该方法的优点是:①起点高。可以直接采用最新的分布式存储(Distributed Storage)和分布式检索(Distributed Retrieval)等技术。②发展快。各职能部门基于统一整合平台进行办公,新数据以统一格式形成和保存,可以在较短时间内形成一个有规模的集成环境。③系统效率高。用户通过一次检索即可在结果界面中找到各部门对该关键词的支持结果,而且还可以直接进入某项页面,如检索到课题申报或评奖申报相关内容,进入该链接从而直接指向申报或评奖页面,这样可以极大地提高利用者的利用效率。④冗余度低。全部数据库均处于“活跃”状态,避免某个独立数据库因为各种硬件或软件原因而成为数据“孤岛”。⑤前景广阔。一旦成功整合并形成规模,将可以推广至区域或行业,以便快速形成多校整合系统或省际高校整合系统。无论是商业价值还是社会价值都十分巨大。 缺點是:①硬件设备昂贵。该平台可能需要多台高速检索服务器来提供一站式检索服务,该服务器还必须配置高容量的缓存来存储热点关键词以提升检索效率,即便使用公布式存储技术降低了存储空间的成本,然而维护、备份、恢复以及硬件淘汰等升级费用也是极大一笔开销;②软件开发费用高。新系统需要按照统一格式构建数据库,这需要大量的权衡和比较工作,最终确定一种数据库格式后,还需要将其它异构数据库进行数据转换,数据的转构和迁移已经相当费时费力,更何况还存在可能造成的数据异常。综合对比以上两种方法,笔者更倾向先用方案一来建立高校数字资源整合系统。然后逐步转换各部门的数字资源并吸收到整合系统中,最终完全淘汰各部门独立服务器,使用全校统一的数字资源整合系统实现方案二。这样在过渡时期还能在一定程度上兼顾各部门的保密或独立等要求。对比情况见表2。
表2两种方案对比表
方案花销功能硬件系统稳定性各服务有效性推广可能前景方法一较少较少资源整合服务器 检索服务器不可控不保证较小一般方法二很大齐全资源整合服务器 检索服务器 存储器稳定有效〖〗较大较好
3高校数字资源整合系统设计
基于以上构想,笔者设计了高校数字资源整合系统,现简要介绍如下。
31整合系统构造
该系统主体框架网络拓扑图见图2。图2高校数字资源整合系统网络拓扑图
311面向用户的界面设计
用户通过终端设备进入整合后的图形用户界面(GUI)来访问数字资源整合系统。用户终端设备可以是普通电脑、可以是独立终端机,甚至是手机浏览器,如果条件允许也可以开发相应的手机APP。以图书资源为例,目前检索主页上提供的检索入口有两种:一种是在页面上提供一个或多个检索入口,分别对应多个目标数据库服务器,通过指定的检索入口选定特定的目标数据库服务器进行关键词检索。目前多数图书馆的检索入口形式为此种形式,根据宋敏等人对179家公共图书馆的统计,2013年主页上无检索入口或1个检索入口的为144家,2个及以上检索入口的为25家,最多的检索入口为5个[26],这种整合实际上是形式上的整合,用户的检索需求实际上是直接提交给特定的数据库服务器,仅仅是把检索入口“整合”到同一个页面而已。第二种是通过一个检索入口即可对多个目标数据库服务器进行检索,甚至可以在检索入口旁的数据库服务器选择区勾选一个或多个目标数据库服务器进行自定义检索。
312校级检索服务器
校级检索服务器是分布式数据库管理系统的检索核心,应使用专用的检索服务器,条件允许或检索量大的应使用中间件(Middle Ware)为服务器与数据库之间的连接提供服务或交互式业务组件(Business Component)来提供检索服务。校级检索服务器的主要功能有:用户信息审核、用户权限控制、用户检索偏好收集、受理检索资源的请求、对数据库服务器定向发送检索请求、回收检索结果、整合并筛选检索结果、向用户终端显示结果等。
313目标数据库
目标数据库服务器是校级检索服务器的访问目标,它响应检索服务器并返回检索结果。就目前而言,目标数据库多为异构数据库。检索结果一般是指向特定资源服务器的资源链接。有的目标数据库可以检索多个资源服务器中的资源,有的目标数据库仅能检索单个资源服务器中的资源,多个目标数据库可能会重复检索某些资源,这样,反馈回校级检索服务器的结果就可能出现“超载与孤岛”的遴选障碍,就需要校级检索服务器对这些检索结果进行校验和分析。
314资源服务器
资源服务器的作用是按照用户的选择提供资源。资源服务器可以是一台独立的计算机,可以是大型数据中心,还可以是一个分布式存储系统,由资源提供者依照数据容量和用户的连接数等要求进行选择。资源服务器与目标数据库服务器存在一对多、多对一和多对多的关系,即一个目标数据库服务器可能管理着一个或多个资源服务器的资源链接,一个资源服务器也同样可能映射到一个或多个目标数据库服务器。资源可以是文本、图片、音频、视频形式,也可以是文件、数据库、动态链接库、压缩包等形式。其资源格式更是千差万别,常用数字资源形式中,文本有DOC、CAJ、PDF等格式,图片有BMP、JPG(JPEG)、TIFF等格式,音频有WAV、MP3等格式,视频有MPEGAVI、MP4等格式,不同格式的资源可能需要专用的解析软件,这也对用户终端解析和显示这些数字资源提出了更高的要求。
32高校数字资源整合系统工作流程
笔者设计的高校数字资源整合系统工作流程见图3。图3高校数字资源整合框架运行图
321用户登陆
用户通过电脑、智能终端、手机APP等方式登陆校级检索服务器,用户终端为该用户建立用户ID和CACHE(用于储存检索关键词、检索结果等信息),同时将登录信息发送至校级检索服务器等待审核。
322用户身份认证
校级检索服务器对用户进行审核,确定用户身份和对应的权限。审核后向用户终端返回认证信息。用户终端显示登录成功,等待用户下一步操作。
323用户提交检索需求
用户通过终端GUI的搜索框输入关键词进行搜索,用户终端根据网络协议建立包含用户ID和IP、检索范围、检索关键词等信息的数据包,向校级检索服务器提交。
324受理检索需求
检索服务器接收检索信息后,查询协议或网络数据字典,了解如何分解和使用其中的信息。通过查询服务列表(INDEX),判定把它送到哪里,或必须访问哪些计算机才能满足该要求。如果目标数据存储于系统的多个计算机上,就必须进行分布式处理,即按照分布式查询协议向关联目标数据库服务器发送检索指令。对不支持分布式查询的目标数据库服务器将依Z3950等协议向其发送检索数据包。该检索数据包内容一般包括检索ID(用于整理各数据库服务器反馈的结果)、认证信息、检索需求等。如果用户指定了一个或多个数据库,那么检索服务器将仅向指定的目标数据库服务器提交检索数据包。与此同时,以该检索信息建立和完善用户偏好数据库,用于用户自定义检索及统计分析。