面向高校利用者的数字资源整合系统设计

来源 :现代情报 | 被引量 : 0次 | 上传用户:yinlei102
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  〔摘要〕随着社会步入高速信息时代,资源的分散性、异构性产生的资源利用困难严重影响数字资源的有效利用,迫切需要进行数字资源整合。本文从高校利用者的数字资源需求入手,结合高校数字资源的实际情况,经过对比和分析,对高校的数字资源整合系统进行设计。认为高校应当建立一站式数字资源整合平台对利用者提供服务。
  〔关键词〕高校;图书馆;数字资源;整合;系统设计
  DOI:10.3969/j.issn.1008-0821.2017.02.013
  〔中图分类号〕G25073〔文献标识码〕A〔文章编号〕1008-0821(2017)02-0068-07
  〔Abstract〕With the social development toward a high-speed information era,the dispersity and heterogeneity of resources make it hard to utilize resource,which influences effective utilization of digital resources,so digital resources integration is urgently needed.This paper started with the users requirement of digital resources in universities,analyzed and compared data by taking account of actual situation of digital resources in universities,then designed the digital resources integration system.The one-stop digital resources integration platform should be set up in universities to provide service for users.
  〔Key words〕university;library;digital resource;integration;system design
  對高校来说,数字资源面向的利用者是全校的科技、教育、研究工作者和学生等。对高校利用者来说,要获取图书馆藏需要登录图书馆的图书借阅查询系统;要获取文献、论文等需要登录CNKI、PUBMED等资源检索网站;要获取法律、公文、专利要访问因特网中不同的政府网站;要获取学校保存的档案和资料要登录档案查询系统;要查询课程安排要登录教学管理系统;要申报课题要登录各级课题申报网站或学校的科研管理系统等;……如此这般,分别登陆一个个不同的网站,输入不同的账号密码,查询并获得一堆不同形式的文本、数据、链接、图片、音频、视频等等数据文件,再反复查找和比对,才能获得需要的“资源”的过程严重影响科、教、研的效率和质量,高效高质服务应该意味着用户通过少量几次检索形成的检索结果就能迅速有效地定位和获得需要的资源。
  1数字资源整合研究现状
  信息资源整合的概念可从狭义和广义两方面理解。从狭义方面讲,它是指将某一范围内的,原本离散、多元化异构的、分布的、信息资源通过逻辑的或物理的方式组织为一个整体,使之有利于管理、利用和服务。广义的信息资源整合概念,就是把分散的资源集中起来,把无序的资源变为有序,使之方便用户,它包含了信息采集、组织、加工以及服务等过程[1]。
  对于数字资源整合,早在2003年起,行业就已经开始进行较为广泛的讨论,从2007-2016年12月,共有564篇文献对数字资源整合进行了讨论。对于资源整合方法,郝欣[2]和赵英[3]等人使用基于本体的研究方法进行信息资源整合;崔伟[4]等提出基于知识链的数字资源整合方法;吕莉媛[5]提出了基于复杂网络的整合方法。
  对于资源整合的实现,目前最大的困难在于海量数据存储和大数据检索。对于数据存储,当前行业内讨论最多的是Hadoop和MapReduce。郝树魁[6]、谭黔林[7]、朱莹芳[8]等人对此进行了较多的技术研究,柏雪[9]基于Hadoop设计一个分布式搜索引擎。对于数据检索,OPAC平台作为一种成熟产品,已经使图书杂志实现了资源整合,然而新技术和方法依然不断涌现。宋敏[10]、吕希艳[11]等多人介绍使用SOA架构建立检索系统;刘巧园[12]、朱倩[13]等人提出使用“中间件”来实现异构数据库的数据通信;葛微[14]提出使用Hibase技术索引建立查询系统;张秀华[15]、许爱军[16]、韩冬[17]等人提出基于Muti-Agent对图书馆、教育资源、医疗信息进行整合;伍玉成[18]提出基于SOA和Web Services进行数据集成;柴森[19]基于Web Services设计与实现了教务信息发布平台;李冬睿[20]和袁新坤[21]基于XML和Web Services实现数据交换平台的设计和实现;杨劲松[22]介绍了MOOC(慕课)的信息整合与共享模式。
  2存在问题和解决方法
  经过10余年的讨论,资源整合在目的、方法、技术等方面进行的讨论和研究较为丰富和全面,然而在笔者看来,依然存在许多问题未能解决。
  21存在问题
  高校的数字资源利用者主要是教育工作者、科技工作者、管理工作者和学生。从笔者访谈的结果显示,高校利用者需要大量各种各样的资源,包括图书、杂志、报纸、论文、网页信息、实验数据、公文、法律法规、专利、各种音频视频、图片。以科技工作者为例,从事科研工作需要的数字资源主要有:科学数据、软件工具资料、仪器设备资料、学术会议资源、交互资源、科研项目及资助信息和教育资源等[23]。而为了获取这些资源,利用者不得不分别打开不同的网页,使用不同的搜索引擎,使用和管理不同的账号和密码,以获得各种不同的信息,同时还需要向相关部门申请各种各样的服务。   对于现有的资源整合平台来说,在图书、期刊、论文、专利、公文、法律等几类数字资源上,笔者分析了国内的几大整合系统如读秀、CNKI、E读、超星发现、清华同方USP、中国高等教育文献保障系统CALIS、国家科学数字图书馆(CSDL)跨库集成检索系统Cross Search等多家检索平台,虽然各平台间在检索图形界面(GUI)、检索范围、检索结果显示等方面存在各种各样的区别,但对于已经公开发布的数字资源如书、报、杂志和论文,一站式检索在上述的检索平台上已然基本实现。
  笔者访问了艾瑞深中国校友会网公布的中国大学排名靠前的学校[24],北京大学与清华大学使用了维普期刊资源整合平台;中国科学院大学、复旦大学、浙江大学、上海交通大学和北京师范大学分别设计了属于自己学校的如“资源集成发现”等整合系统;北京师范大学使用“木铎搜索”对数字资源进行一站式检索,不仅将期刊、图书、专利等数字资源进行收录,更是将学校档案资源也一并整合。各学校整合系统情况见表1。表1中国部分高校数字资源整合系统一览表
  排名大学名称整合系统3中国科学院大学资源集成发现4复旦大学复旦大学图书馆资源发现系统-望道7浙江大学求是学术搜索9上海交通大学思源探索15北京师范大学木铎搜索
  笔者同时访问了泰晤士高等教育发布的2016年世界大学排行榜(QS世界大学排名)中排名靠前的多所大学[25],发现其图书情报文献资源均已实现集成检索,且前10名中除美国加州理工大学(California Institute of Technology)外,均设计了不区别文献格式的检索入口。且每个大学基本都使用了自己的整合系统对本校所属的其它资源进行整合,如英国牛津大学(Oxford)使用SOLO(Search Oxford Libraries Online)检索引擎来进行检索一站式(One-stop)检索,见图1。其中论文可以阅读摘要、作者信息等基本信息,如果需要原文,可能需要支付费用,一般为每篇35左右;书报可以阅读摘要、作者信息、出版日期、出版商、ISBN号等基本信息,并提供索书号码等信息。图1牛津大学图书馆SOLO检索引擎
  综合对比国外大学与国内大学的资源整合系统情况,国外大学整合系统开发较早,普及程度比较高,现已基本实现各学校内部数字资源的一站式检索和利用。而国内大学普遍开发较晚,学校内部各种数字资源的整合才刚刚起步。
  22解决方法
  为了向利用者提供高效、优质的服务,笔者认为,高校应该建立统一的数字资源整合系统。对于公开出版的数字资源,可以采用协议或采购的方式接入资源整合系统。对于外网其它资源如政策法规、网页链接、新闻博客等,采用内置搜索引擎或向外购搜索服务来实现。对于学校内部资源,则需要建立一个资源整合平台,以提高服务质量和效率。对学校内部资源进行整合,笔者认为有以下两种方案。
  方案一:仅建立一站式检索平台,各职能部门数据库管理系统依然使用,仅通过协议接受检索平台的跨库检索,然后由检索平台统一提供,但对检索平台对数据库内数据进行操作则需要另外的授权,对于各部门数据库来说,仅需要添加标识码或关键词即可。该方法的优点是:①硬件投入少。仅需要增加检索服务器即可,不需要配置大容量数据存储器。②各部门自主性强。各部门仍能在相当程度上控制部门服务器的功能和服务,出于保密或权力许可等因素的考虑,在一定程度上符合过渡的要求。③易于转型和更改。因为系统架构和技术而导致整合系统缺乏预期运行价值时,造成的损失比较小。
  缺点是:①硬件故障不可控。各部门的数据资源服务器由各自独立的数据库管理系统进行管理,这些独立的部门服务器其网络连接或者服务器本身出现的任何故障都可能导致该部分功能不能提供服务。②软件功能实现困難。数据库行业内的垄断形成已久,加上对数据安全的考虑,各种异质异构数据再搭配各种加密方法和身份验证方法,导致穿透各数据库的检索软件开发困难。③整个系统稳定性差。检索平台进行跨库检索时,尤其是跨异构数据库或者目的数据库比较庞大或者查询命令比较复杂的时候,进行检索不可避免的会出现该命令无法在系统允许的最大时限内完成,而几乎所有服务器都不会允许一项进程长时间占用系统资源,目的服务器必然要挂起(Hang On)该请求,而导致检索平台响应超时,请求被驳回,甚至系统服务崩溃。④服务项目少。只能实现检索等少数功能,无法进一步操作,如检索到空闲实验室,很难直接实现一步到位的申请。⑤前景不明。资源整合符合数字资源服务发展方向,且不说国家层面,一旦省内或者行业内进行全局资源整合,且与学校建立的资源整合平台异构异质,则还需要花费更大开销来进行转换和对接。届时数据库含量更大,情况更复杂,难度会更高。当然,随着科技的进步,更准确更稳定的分布式检索系统和分布式存储系统的建立,也许跨异构数据库的资源整合会变得更简单。
  方案二:重新建立一个全校网络整合平台,将全校各职能部门的工作和数据全部并入该平台,原有数据格式经过格式转换后,存储至集中的数据仓库中。该方法的优点是:①起点高。可以直接采用最新的分布式存储(Distributed Storage)和分布式检索(Distributed Retrieval)等技术。②发展快。各职能部门基于统一整合平台进行办公,新数据以统一格式形成和保存,可以在较短时间内形成一个有规模的集成环境。③系统效率高。用户通过一次检索即可在结果界面中找到各部门对该关键词的支持结果,而且还可以直接进入某项页面,如检索到课题申报或评奖申报相关内容,进入该链接从而直接指向申报或评奖页面,这样可以极大地提高利用者的利用效率。④冗余度低。全部数据库均处于“活跃”状态,避免某个独立数据库因为各种硬件或软件原因而成为数据“孤岛”。⑤前景广阔。一旦成功整合并形成规模,将可以推广至区域或行业,以便快速形成多校整合系统或省际高校整合系统。无论是商业价值还是社会价值都十分巨大。   缺點是:①硬件设备昂贵。该平台可能需要多台高速检索服务器来提供一站式检索服务,该服务器还必须配置高容量的缓存来存储热点关键词以提升检索效率,即便使用公布式存储技术降低了存储空间的成本,然而维护、备份、恢复以及硬件淘汰等升级费用也是极大一笔开销;②软件开发费用高。新系统需要按照统一格式构建数据库,这需要大量的权衡和比较工作,最终确定一种数据库格式后,还需要将其它异构数据库进行数据转换,数据的转构和迁移已经相当费时费力,更何况还存在可能造成的数据异常。综合对比以上两种方法,笔者更倾向先用方案一来建立高校数字资源整合系统。然后逐步转换各部门的数字资源并吸收到整合系统中,最终完全淘汰各部门独立服务器,使用全校统一的数字资源整合系统实现方案二。这样在过渡时期还能在一定程度上兼顾各部门的保密或独立等要求。对比情况见表2。
  表2两种方案对比表
  方案花销功能硬件系统稳定性各服务有效性推广可能前景方法一较少较少资源整合服务器 检索服务器不可控不保证较小一般方法二很大齐全资源整合服务器 检索服务器 存储器稳定有效〖〗较大较好
  3高校数字资源整合系统设计
  基于以上构想,笔者设计了高校数字资源整合系统,现简要介绍如下。
  31整合系统构造
  该系统主体框架网络拓扑图见图2。图2高校数字资源整合系统网络拓扑图
  311面向用户的界面设计
  用户通过终端设备进入整合后的图形用户界面(GUI)来访问数字资源整合系统。用户终端设备可以是普通电脑、可以是独立终端机,甚至是手机浏览器,如果条件允许也可以开发相应的手机APP。以图书资源为例,目前检索主页上提供的检索入口有两种:一种是在页面上提供一个或多个检索入口,分别对应多个目标数据库服务器,通过指定的检索入口选定特定的目标数据库服务器进行关键词检索。目前多数图书馆的检索入口形式为此种形式,根据宋敏等人对179家公共图书馆的统计,2013年主页上无检索入口或1个检索入口的为144家,2个及以上检索入口的为25家,最多的检索入口为5个[26],这种整合实际上是形式上的整合,用户的检索需求实际上是直接提交给特定的数据库服务器,仅仅是把检索入口“整合”到同一个页面而已。第二种是通过一个检索入口即可对多个目标数据库服务器进行检索,甚至可以在检索入口旁的数据库服务器选择区勾选一个或多个目标数据库服务器进行自定义检索。
  312校级检索服务器
  校级检索服务器是分布式数据库管理系统的检索核心,应使用专用的检索服务器,条件允许或检索量大的应使用中间件(Middle Ware)为服务器与数据库之间的连接提供服务或交互式业务组件(Business Component)来提供检索服务。校级检索服务器的主要功能有:用户信息审核、用户权限控制、用户检索偏好收集、受理检索资源的请求、对数据库服务器定向发送检索请求、回收检索结果、整合并筛选检索结果、向用户终端显示结果等。
  313目标数据库
  目标数据库服务器是校级检索服务器的访问目标,它响应检索服务器并返回检索结果。就目前而言,目标数据库多为异构数据库。检索结果一般是指向特定资源服务器的资源链接。有的目标数据库可以检索多个资源服务器中的资源,有的目标数据库仅能检索单个资源服务器中的资源,多个目标数据库可能会重复检索某些资源,这样,反馈回校级检索服务器的结果就可能出现“超载与孤岛”的遴选障碍,就需要校级检索服务器对这些检索结果进行校验和分析。
  314资源服务器
  资源服务器的作用是按照用户的选择提供资源。资源服务器可以是一台独立的计算机,可以是大型数据中心,还可以是一个分布式存储系统,由资源提供者依照数据容量和用户的连接数等要求进行选择。资源服务器与目标数据库服务器存在一对多、多对一和多对多的关系,即一个目标数据库服务器可能管理着一个或多个资源服务器的资源链接,一个资源服务器也同样可能映射到一个或多个目标数据库服务器。资源可以是文本、图片、音频、视频形式,也可以是文件、数据库、动态链接库、压缩包等形式。其资源格式更是千差万别,常用数字资源形式中,文本有DOC、CAJ、PDF等格式,图片有BMP、JPG(JPEG)、TIFF等格式,音频有WAV、MP3等格式,视频有MPEGAVI、MP4等格式,不同格式的资源可能需要专用的解析软件,这也对用户终端解析和显示这些数字资源提出了更高的要求。
  32高校数字资源整合系统工作流程
  笔者设计的高校数字资源整合系统工作流程见图3。图3高校数字资源整合框架运行图
  321用户登陆
  用户通过电脑、智能终端、手机APP等方式登陆校级检索服务器,用户终端为该用户建立用户ID和CACHE(用于储存检索关键词、检索结果等信息),同时将登录信息发送至校级检索服务器等待审核。
  322用户身份认证
  校级检索服务器对用户进行审核,确定用户身份和对应的权限。审核后向用户终端返回认证信息。用户终端显示登录成功,等待用户下一步操作。
  323用户提交检索需求
  用户通过终端GUI的搜索框输入关键词进行搜索,用户终端根据网络协议建立包含用户ID和IP、检索范围、检索关键词等信息的数据包,向校级检索服务器提交。
  324受理检索需求
  检索服务器接收检索信息后,查询协议或网络数据字典,了解如何分解和使用其中的信息。通过查询服务列表(INDEX),判定把它送到哪里,或必须访问哪些计算机才能满足该要求。如果目标数据存储于系统的多个计算机上,就必须进行分布式处理,即按照分布式查询协议向关联目标数据库服务器发送检索指令。对不支持分布式查询的目标数据库服务器将依Z3950等协议向其发送检索数据包。该检索数据包内容一般包括检索ID(用于整理各数据库服务器反馈的结果)、认证信息、检索需求等。如果用户指定了一个或多个数据库,那么检索服务器将仅向指定的目标数据库服务器提交检索数据包。与此同时,以该检索信息建立和完善用户偏好数据库,用于用户自定义检索及统计分析。
其他文献
他们是两个年幼孩子的父母,这个春节,却没能陪孩子们吃过一顿团圆饭;他们在同一座城市,自抗击新型冠状病毒战“疫”打响以来,很久都没能见上一面;他们都是共产党员,战斗在疾控一线的特殊岗位上,也是距离病毒最近的地方。30公斤,他一步一个脚印负重逆行  自新冠肺炎疫情发生以来,杨勇作为南昌市青云谱区疾控中心疫情防控消杀组组长,其工作是为确诊新冠肺炎的患者家庭或他们居住过的酒店开展终末消毒,防止污染源扩散给
密切关注“小意林成长微刊”的小伙伴想必已经注意到了——一个神秘的组合正以一种不可描述的特别方式火速蹿红,赢得众多意丝的追捧。那么问题来了,这个画风清奇的组合私底下到底是什么样子呢?本期“八卦茶话会”,众小编齐心协力,为大家揭开“唯二宝宝”的神秘面纱!  唯二宝宝追剧记  午饭时间是小编们闲聊八卦的好时光。这一天,豆包包兴致盎然地跟鹿鸣菌说起了自己最近狂追的热剧:“你知道吗,里面的男配角好帅啊!但是
摘要 为了解黑龙江省水稻穗褐变病主要病原菌侵染时期及致病性情况,分别于水稻破口期、扬花期、乳熟初期采用禾谷镰孢Fusarium graminearum、链格孢Alternaria alternata、稻黑孢Nigrospora oryzae、黑附球霉Epicoccum nigrum对水稻穗进行注射和喷雾接种。结果表明,4种病原菌在水稻破口后即可侵染稻穗使谷粒颖壳变褐。注射接种稻穗谷粒褐变重于喷雾接
巡察工作的方向在基层、重点在基层。监督对象和监督内容的“基层属性”,决定巡察工作不能完全照搬照抄巡视的经验做法,必须立足实际,实打实、硬碰硬,不断探索有效管用的监督实招。养猪场的“民心账”  金秋时节,江西省新余市高新区施家村的农田里,沉甸甸的稻穗笑弯了腰,在阳光下散发着阵阵稻香,好一派迷人的丰收景象。然而谁能想到,去年此时,这里的村民还在为严重歉收的庄稼一筹莫展。  可喜的变化,因高新区2019
淘气星球拥有全宇宙最淘气的空气,它们会不定期地集体出逃。所以,你也可以称呼这个星球为——逃气星球!  在淘气星球,每个孩子出生后需要学习的第一件事,就是练习憋气。人们会事先收集好各种空气,以备不时之需。孩子们根本没有工夫淘气,除了那个半孩子。  阿淘是个非常淘气的孩子,只要他圆眼一瞪,淘气星球上的孩子就会乖乖地把自己辛苦收集来的储气袋子交给他。只有一个孩子除外,那就是阿气。  一个晴朗午后,空气又
摘要 采用温室盆栽整株测定法,开展炔草酯、唑啉草酯、精噁唑禾草灵、甲基二磺隆、氟唑磺隆、啶磺草胺、异丙隆7种茎叶处理除草剂对野燕麦的除草活性评价。结果表明: 15%炔草酯WP和5%唑啉草酯EC对野燕麦活性极高,ED90分别为12.58和21.92 g/hm.2(有效成分,下同),约为各自推荐剂量的1/4和1/2,可作为生产中防除野燕麦的首选药剂; 69 g/L精噁唑禾草灵SC和30 g/L甲基二磺
从本质上来说,琴书是一名工程师;从细分领域来说,她是一名“观影体验师”。她不穿格子衫,也不是每天与代码打交道。她的日常工作是看网络平台上已经播出的剧,通过眼睛和耳朵,找出这些老剧出了什么问题,需要如何修补和优化,然后用工程师的语言记录下这些问题,再交给团队来修复。简而言之,别人看剧是看剧情,而琴书是看瑕疵。  和琴书只看老片相反,小贝只看新剧——没上线的剧。他是一名“成片体检师”,工作主要是两件事
摘要 为了解深绿木霉HB20111产挥發性物质的成分以及潜在的生物学功能,采用顶空气相色谱-质谱法测定了深绿木霉HB20111产挥发性物质的主要成分,并进行了成分分析;采用对扣法测定了深绿木霉HB20111产挥发性物质对5种植物病原菌的抑菌率;同时测定了深绿木霉HB20111产挥发性物质对小麦幼苗生长的影响。结果表明,深绿木霉HB20111产挥发性物质烯类的相对含量最高,为49.68%、醇类为21
虽然素有“男儿有泪不轻弹”之说,可也公认“无情未必真豪杰”。  毛泽东胸怀博大、豁达豪爽、无私无畏、意志如钢,是条平常轻易不流泪的硬汉子。但是,在他那波澜壮阔、雄奇丰富、功勋卓著的革命生涯中,却还是有流下热泪的时候,呈现出他温情细致的一面。虽然素有“男儿有泪不轻弹”之说,可也公认“无情未必真豪杰”。毛泽东正是这样的人。  挥泪送衣给“干人”  1934年底湘江血战后,中央红军主力损失过半。在危急时
一年前,如果你提薛之谦没几个人会认识,但现在一提薛之谦,十个人会有九个人说认识,剩下的那一个还会说眼熟。薛之谦的爆红很快,快到让人目不暇接,一时间仿佛各大卫视都能看到他的身影。薛之谦,他终于红了。原本是歌手的他,在他擅长的领域没有火,却凭借“段子手”的身份火了起来。这也算是他的曲线成名,他的音乐也如他所愿,开始走进大众视野。  “成功的花,人们只惊羡她现时的明艳!然而当初她的芽儿,浸透了奋斗的泪泉