基于DSpace的本地化特色文献资源共享平台

来源 :现代情报 | 被引量 : 0次 | 上传用户:gouhs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  〔摘 要〕本文根据文献资源数据的特点,论证了利用开源的DSpace系统作为本地化特色文献资源仓储系统的可行性,研究了DSpace系统的特点和优点,给出了作者实践的实例,并在最后介绍了需要进一步改进的工作。
  〔关键词〕DSpace;特色文献;机构仓储
  DOI:10.3969/j.issn.1008-0821.2010.12.017
  〔中图分类号〕G250.73 〔文献标识码〕B 〔文章编号〕1008-0821(2010)12-0062-03
  Localization Characteristics Literature Resource
  of Sharing Platform Based on DSpaceWang Guohua
  (Ningxia Science and Technology Development Strategy and Information Institute,Yinchuan 750001,China)
  
  〔Abstract〕Based on the characteristic of literature resource,the paper demonstrated the feasibility of using DSpace as the repository system of it,researched the excellence and characteristic of DSpace,and provided the authors practices,and introduced the work to be further improved.
  〔Keywords〕DSpace;characteristic literature;institutional repository
  
  在国家提出关于加强我国科技资源建设的政策背景下,全国各省区科技情报部门充分运用计算机、互联网等现代技术手段,努力搭建各省区的科技文献资源共享平台。“本地化特色文献资源共享平台”(以下简称“平台”)应运而生,它是宁夏科技文献资源共享工程中的重要组成部分,该平台是针对宁夏地区科技创新、经济发展要求和产业特点,从基础文献及管理文献中开发、挖掘、加工的,为各级政府部门及各类企业或组织机构、个人提供的专题文献信息、竞争情报产品而建立的专题数据库。
  当前,宁夏现有文献资源现状是:各高校、科研院所等单位所拥有的特色数据资源往往以DOC、PPT、PDF等多种形式存放,或者自建数据库系统存放。由于其结构形态的特殊性与多样性,导致此类数据在存储、利用上具有一定的难度,且在安全性和通用性方面很难保证。从文献管理的角度来看,许多图书馆的存储系统都采用机构仓储来保存管理文献资源,且具有多年的理论研究和实践基础。本文将探讨以DSpace系统为基础构建本地化特色文献资源共享平台的可行性和优势,并简单介绍平台实例中的部分内容,以期对文献管理系统提供一些借鉴。
  1 机构仓储简介
  机构仓储(IR,InstitutionalRepository)就是以搜集、组织、利用和存储大学、科研院所等学术机构的相关数字知识资源为主要任务,并将其中绝大部分资源对所有网络用户免费开放的数字资源库。它基于开放理念而建立、以学术机构为中心,对保存学术机构知识资源、提高学术机构知名度和影响力、拓宽研究型图书馆的发展空间、革新传统学术交流体系等都有重要意义。目前机构仓储的技术发展已相当完善,有许多较为成熟的机构仓储应用系统,如Eprints、DSpace、Fedora等,这些应用系统都各具特色,各机构可根据自身需求选择最适合的应用系统。根据开放存储注册官方机构(Registry of Open AccessRepositories,ROAR)公布的数据,使用Eprints、DSpace软件的占全部注册机构的24%、30%,其中国内使用DSpace的学术机构高达60%。基于文献资源的数据特性,本文选定DSpace为研究对象,希望对文献资源的存储、查询等提供借鉴。
  2 DSpace的特点及在平台中应用的可行性
  2.1 DSpace系统简介
  数字空间DSpace系统是由美国麻省理工学院图书馆和美国惠普公司实验室合作开发的开放源代码软件,并于2002年10月开始投入使用的,该系统可以处理图书、学位论文、数据集、计算机程序、数据图片、视听资料、网页、管理资料等等,几乎囊括了文本、音频、视频和图片等各类媒体格式。DSpace系统可以运行在多个平台上,以内容管理发布为设计目标并遵循BSD协议,用户通过直接利用或改写DSpace软件,创建适合自己的机构仓储系统,并可通过DSpace 与其它学校、科研机构、图书馆等联网,形成资源共享。这个特性完全符合我们建设文献资源共享平台的服务宗旨。
  2.2 DSpace的功能特点
  DSpace系统功能强大,在数据的存储、检索等方面都有出色表现。从构建文献资源共享平台的目标出发简述其以下四方面功能:
  2.2.1 支持多种格式的文献资源存储,可以满足文献管理的需求
  DSpace将它存储的所有数字资源分为若干个级别不同的数字类型,包括:Community(组织)、Collection(馆藏集合)、Item(信息对象)、Bundle(数据包)、Bitstream(位流数据),其中Community是范围最大的集合,它由Collection组成,而每个Collection又是由多个Item集合而成,在每个Item中包含多个Bundle,Bundle由多个Bitstream组成,每个Bitstream中包含相关联的格式。图1为DSpace数据模型:
  图1 DSpace数据模型
  本地化特色文献资源共享平台的数据分类与 DSpace的数据组织模型是基本一致的。该平台文献资源分为:沙产业专题文献数据库、压砂瓜专题文献数据库、新材料专题文献数据库、草业专题文献数据库、清真牛羊肉专题文献数据库、羊绒产业专题文献数据库、科技成果专题文献数据库、枸杞专题文献数据库、马铃薯专题文献数据库、红枣专题文献数据库、多晶硅专题文献数据库共11个专题文献数据库。各个数据库就相当于DSpace中的Community(组织),在每个数据库下又分为科技期刊、学位论文、国内外专利、国内外标准、科技成果、会议论文等小类,这些小类即为 Collection(馆藏集合),在国内外标准中又分为国家标准和国外标准,这相当于Item,国家标准中的标准号、发布日期、标准名等等相当于Bundle,而发布日期格式、标准页数等相当于Bitstream,如表1所示:表1 DSpace类型对象及对应的数据库实例
  Dspace中的对象类型对应的专题文献数据库中的实例Community(组织)多晶硅专题文献数据库Collection(馆藏集合)国内外标准Item(信息对象)国家标准Bundle(数据包)国家标准中的标准号、发布日期、标准名等Bitstream(位流数据)发布日期格式、标准页数等
  2010年12月第30卷第12期基于DSpace的本地化特色文献资源共享平台Dec.,2010DSpace的这种数据结构将内容对象与媒体类型分离,能够解决文献资源不同格式的信息存储问题,将每个位流数据分别对应到每种数据格式上,实现了信息组织的灵活性和可重构性,并且支持系统资源媒体类型的扩展。
  2.2.2 工作流机制符合文献资源管理的安全需求
  DSpace的系统结构分为存储层、业务逻辑层和应用层。存储层主要负责保存元数据、二进制流(Bitstream),并对内容进行组织、检索索引等数据库的操作,它位于三层结构的最底层。中间层是业务逻辑层,其主要功能是负责实现各种功能模块,如内容管理、用户管理、权限管理、信息检索等。位于最顶层的是应用层,也就是大家常见的Web用户界面,是显示层,用户通过Web界面来管理DSpace系统、查阅资料等。DSpace中的每一层只能调用本层的组件,不能跨层直接调用。如果用户要调用存储层的内容那只能通过业务逻辑层调用,这样一来,处在应用层的用户必须有一定的权限才可以通过业务逻辑层调用到存储层的元数据。也正是这种严格的层次调用关系才有利于文献资源的安全保护。为了保证数据的质量和合理归类 , 必须对不同的用户进行不同的权限设置 , 比如某些用户只能提交数据但不能进行修改编辑,更不能进行删除,另外一些用户可以进行编辑修改和下载等功能,当然管理员可以对用户组进行各种限制。对于这些功能,DSpace所提供的工作流机制可以比较完美的解决。
  2.2.3 利用Lucene搜索引擎来实现数据检索功能
  DSpace的目标就是提供尽量多的检索特色。DSpace的索引和检索模型有一个API接口,允许非常方便地索引新内容,重建索引以及在指定范围内检索。这个API来自免费的Java搜索引擎——Lucene。Lucene支持字段检索、停词(stop words)、词干(stemming)以及不重建索引增加新的索引内容的能力。它有两种检索方式:一种是简单检索方式,即在检索栏中输入检索词,系统自动在DSpace存储库检索相关内容,这是针对元数据的内容进行检索。另一种是高级检索方式,即可以指定相应的合集和DC(DublinCore)元数据字段进行精确检索和逻辑组合检索。例如在本地化特色文献资源共享平台中,用户可以按作者、主题、摘要浏览DSpace存储库中全部文献资源,也可以在选择相应的数据库后,浏览该大类下的小类和全部条目,包括这些条目的提名、关键字和作者。举例说明,选择多晶硅专题文献数据库后,浏览它下面的国内外专利中的国家专利,还可以按专利的标题、作者、专利号、日期等进行检索。总之DSpace的特色之一就是能够提供强大的检索功能,它完全可以满足用户的需求。图2为平台的检索界面:
  图2 本地化特色文献资源共享平台检索界面
  2.2.4 利用Handle机制有效解决了数据资源的永久存储
  我们经常会遇到这样的问题,当我们把某一个数据库的栏目位置做了相应的调整,而具体条目信息的链接并没有得到有效的更新,那么当用户点击相应的信息时就会发现该条目的信息链接有问题,也就是出现了虚假的链接或者死链接。恰好DSpace可以解决这个问题,DSpace采用CNRI句柄系统(HandleSystem)为每个Community、Collection、Item提供惟一、永久的标识符Handle,即无论资源所在条目、合集、社区的内容和位置发生怎样的变化,用户只要使用该Handle,即可找到相应信息。利用handle机制,DSpace可以实现数字资源在全球的惟一标识。通常,Handle以两种格式存在:Hdl:1821.123/3456或者http:∥hdl.handle.net/1821.123/3456。这两种形式都表示同样的句柄,第一种作为标识符使用更加方便;第二种可以通过Web浏览器访问,当用户输入第二种Handle后,CNRI的代理服务器对句柄进行解释,将用户转到资源实际地址,这就解决了文献资源链接永久有效的问题。
  综合以上分析,DSpace具有跨平台、开源、易于扩展、支持多种数据类型和便于索引等优点,综合考虑平台建设经费和文献资源管理的特点,我们以DSpace软件为基础构建了本地化特色文献资源共享平台。
  3 DSpace在本地化特色文献资源共享平台中的实践
  3.1 平台建设思路
  根据前期需求分析,我们确定以DSpace为基础结合Java技术对本地化文献资源共享平台进行设计构建。
  (1)我们确定需要建设沙产业专题文献数据库、压砂瓜专题文献数据库、新材料专题文献数据库、草业专题文献数据库、清真牛羊肉专题文献数据库、羊绒产业专题文献数据库等11个本地化特色文献专题数据库。在每个数据库中又分为科技期刊、学位论文、国内外专利、国内外标准等,在国内外专利和国内为标准中又有所细分,这样的信息分类方法和存储结构很符合DSpace的特点。图3为本地化特色文献资源共享平台的DSpace结构图(概图)。
  图3 本地化特色文献资源共享平台的DSpace结构图(概图)
  (2)与DSpace系统相结合我们运用java技术对Web界面进行适当的改造,以符合我们的实际需求。
  (3)征集用户对系统进行测试并解决实践中遇到的问题。在此之前,系统管理员要对整个系统进行一些管理设置,包括用户的管理、权限分配等操作。在测试应用过程中检测DSpace系统的各项功能是否可靠,以便进一步改进和完善。
  3.2 平台中的用户管理、权限设置及检索功能
  个人用户在填写基本信息后进行注册,然后由系统管理员进行审核,并分配给不同权限,根据账号和密码进入系统进行相应的操作。注册用户在登录后,可根据题名、作者名、摘要或时间等进行层级浏览寻找所需信息,也可进行简单检索或高级检索搜寻所需信息,在找到所需信息资源后可在线查看详细信息或者下载。若用户检索超出其权限的内容信息时,需要经由后台审核区的审核员同意才可继续进行。如果是非注册用户,那么他只能对平台资源进行简单的浏览和检索,对未公开的内容需要有更高的权限才能浏览。系统管理员一般负责对系统内资源的公开程度、范围及用户权限进行管理,也可对文献资源的排放格式等进行相应修改。
  目前,文献资源的共享共用越来越多地受到社会各界的广泛关注和重视,文献资源的应用对科技创新、科技成果转换等都有非常重要的意义。
  4 需要进一步改进的地方
  本地化特色文献资源共享平台作为DSpace系统的应用实例,现已建成11个特色文献资源专题数据库,拥有数据资源12万篇。但由于DSpace系统本身也有一些不足之处,结合我们的实际工作,将来还有许多地方需要进一步加强和完善。
  (1)数据资源的录入问题。目前主要靠人工手动录入,效率低,出错率大。下一步的主要工作是开发一个统一标准的数据转换软件,能够方便的采集数据并能够实现与DSpace系统之间的数据导入导出。希望能把更多的零散数据纳入到平台当中。
  (2)编码方式不统一造成的乱码问题。由于DSpace系统采用的编码方式与用户Web界面所采用的编码方式不同,有时候会出现乱码的现。
  (3)WEB管理界面优化问题,DSpace系统提供的默认界面不太符合中国人的使用习惯,这就需要用户自己对其进行汉化美化。具体办法有待下一步研究。
  (4)对一些数据格式支持不太好,需要手动扩展和更改程序。
  5 结 语
  本地化特色文献资源共享平台的建立对科技创新、科技信息服务提供了帮助。系统建设选择了开源软件DSpace系统和java技术,成功的解决了非结构性数据的存储和共享问题。为文献资源的存储应用提供了借鉴。
  
  参考文献
  [1]李广建,黄永文,张丽.IR:现状、体系结构与发展趋势[J].情报学报,2006,(4):236-241.
  [2]邹荣,范爱红,姜爱蓉.基于DSpace构建科研论文管理系统[J].现代图书情报技术,2009,(10):90-94.
  [3]邱均平,马瑞敏,程妮.利用SCI进行科研工作者成果评价的新探索[J].中国图书馆学报,2007,33(4):11-16.
  [4]林颖,张智雄.构建基于Dspace的中文机构仓储系统[J].图书情报工作,2007,(2):87-91.
  [5]MarieWise,LisaSpiro,GenvaHenry,SidneyByrd.Expandingrolesforthe institutional repository[J].OCLCSystems & Services:Internationaldigitallibraryperspectives,2007,(2):216-223.
  [6]DSpace官方网站[EB].http:∥www.dspace.org,2005-10-08.
  [7]DSpace系统文档[EB].http:∥dspace.org/technology/system2docs,2005-10-09.
  [8]董文鸳,袁顺波.聚焦学术机构知识的中心:机构库(Institutional Repository)探析[J].图书馆杂志,2005,(8):51-55,59.
  [9]http:∥baike.baidu.com/view/1005128.htm[EB].2010-07-17.
其他文献
随着社会经济的不断发展,人民生活水平随之提高,环保意识越来越强烈,特别是对住宅建筑的质量要求越来越高。绿色建筑俨然成为了城市发展的必然趋势。如何充分利用自然能源,在
二硼化钛(TiB2)是新型的陶瓷材料,具有极其优异的理化性能。如极高的熔点和硬度,极好的化学稳定性,极佳的导电导热性,及高温下优异的机械力学性能。TiB2及其复合材料被广泛地用
本文讲述了数字图书馆在E-learning环境下运用语义网格理论,构造了基于语义网格的体系模型,并描述了其各层的功能划分及组成,它能够有效地实现资源的有效共享及统一管理,为数字图
根据近十年(2001-2010)国家科学技术学术著作出版基金的资助项目,按照该基金申请要求填报的科学领域,国家标准《学科分类与代码》中的科学技术学科,获得资助的出版社、高校、科
<正>贵州省国税系统以党建统领业务,着力构建"党建引领,以税收执法内控为主线,以财务内控和行政人事内控为两翼"的新格局。党的十九大报告指出:"全面从严治党永远在路上。"贵