论文部分内容阅读
摘 要 资源发现系统近年来在国内外图书馆发展迅速,论文针对目前公共图书馆资源发现系统的应用现状,以及技术发展对资源统一发现系统的推进,结合上海图书馆资源发现系统的运行以及维护情况,介绍了公共图书馆资源发现系统目前存在的应用问题,探讨了资源发现系统改进发展的方向。
关键词 资源发现 知识发现 发现服务 资源发现系统 公共图书馆
分类号 G254.92
DOI 10.16810/j.cnki.1672-514X.2019.04.016
Abstract The resource discovery system has made rapid development at domestic and overseas libraries in recent years. This paper presents the current application situation of the resource discovery system in public libraries, and the advancement of technology development to the unified resource discovery system. Combined with operation and maintenance of resource discovery system in Shanghai Library, the existing problems of the resource discovery system of the public library and the direction of the future development of the discovery system are discussed.
Keywords Resource discovery. Knowledge discovery. Discovery service. Resource discovery system. Public library.
2009年,基于全网域的资源发现服务(Web-Scale Discovery Services)引入图书馆[1],用来揭示馆藏资源。该系统基于海量的元数据集合,具有技术的先进性和检索界面易用性等优势,可以对图书馆自建和外购资源统一发现和获取。截至2016年,国内985高校图书馆资源发现系统的覆盖率已达到100%[2],但是,省级公共图书馆对此类发现系统的使用还比较少。上海图书馆作为全国首家尝试在公共图书馆提供发现服务的机构,于2013年开始探索发现系统在公共图书馆的应用,并于2014年上线了“上图发现”,实现了基于元数据的馆藏数字资源和书目资源的统一检索。经过三年多的服务应用,上海图书馆在积累经验的同时,也在使用过程中发现了一些问题。对此,本文将结合上海图书馆资源发现系统的运行及维护情况,介绍公共图书馆资源发现系统在应用中存在的问题,并探讨未来公共图书馆资源发现系统的改进和发展方向。
1 公共图书馆资源发现系统应用现状
美国图书自动化专家Marshall Breeding对发现产品的定义为:“发现产品包含一个面向用户的图书馆资源查找界面,并通过适当的机制使用户获得感兴趣的条目。发现产品往往与特定的图书馆资源管理应用程序无关,如图书馆集成系统、图书馆服务平台、数据仓储或电子资源管理系统等。在大多数情况下,它们可以访问各种类型的资源,独立于管理平台。发现产品提供了一个具有搜索和检索功能的接口,通常具有基于搜索结果的相关性排序功能,可以根据特定类别、著者或日期范围限定结果的分面。发现产品使用合法的访问授权、内容类型和许可的机制来提供对资源的访问。这些机制包括识别资源当前的物理位置和状态,以提供连接、直接浏览或下载文章、章节、电子书,或其它电子文本,并提供数字图像或多媒体内容。发现产品也可以具有社会特征,使图书馆的用户可以评论、评价或推荐分享,与其他用户进行动态交互”[3]。目前主流的发现服务产品和公司包括EBSCO Discovery Service(EBSCO)、Encore Discovery Solution(Innovative Interfaces)、Primo(ExLibris, a ProQuest Company)、Summon(ProQuest)、Worldcat Local(OCLC)、Enterprise(SirsiDynix)等[4]。Marshall Breeding的 《Library Technology Reports》 曾對美国、英国、加拿大、澳大利亚等地区的396家图书馆进行了资源发现系统的问卷调研,其中包含96家公共图书馆,对于发现产品的总体性能的满意程度,以及用户界面的友好性均值最高的是EBSCO Discovery Service(EDS),馆藏揭示的全面性得分最高的是Worldcat Local,相关性排序结果的有效性得分最高的是VuFind[5]。
目前,国内23个省级公共图书馆中,辽宁省图书馆使用Primo资源发现平台,山东省图书馆使用百度知识发现,吉林省图书馆和南京图书馆使用超星发现系统。直辖市公共图书馆中,首都图书馆、重庆图书馆使用Primo发现平台,上海图书馆使用EDS(FIND+) 本地化的资源发现平台。国家图书馆没有使用商业化的成品软件,而是采用了分布式系统架构和大数据技术开发了“文津搜索”系统,比起商业软件系统架构更加灵活,可扩展性好[6]。
2 技术进步对资源统一发现系统的推动
资源发现系统基于元数据的整合检索,从架构上被认为是早前联邦检索的替代产品,联邦检索在资源检索时实现多个库的同时跨库检索,主要限制因素是缺少结果的相关性排序,检索结果返回需要较长的时间,以及减少了数据库本地接口组件提供的搜索功能[7]。但是从另一个角度来看,联邦检索对于不便集成到资源发现系统里的数据可以实现初步的统一检索和揭示。国外多家高校图书馆实现了基于Bento盒子展示的联邦检索系统,检索结果采用多窗格布局模式,系统在发现服务平台的基础上,通过APIs(Application Programming Interfaces) 接口服务,实现同时检索展示馆藏目录、数字资源、自建资源数据库等内容,比较灵活地实现馆藏所有资源的统一检索发现服务[8]。 近年来,基于Web2.0功能的发现展示开源平台也取得了较快的发展,目前比较流行的开源软件平台有Drupal、Vufind、Blacklight、Koha等,都可以实现检索结果的分面显示和Web 2.0功能。业内比较熟悉的Vufind平台,最早被开发用来实现OPAC 2.0的相关功能,包含分面浏览、检索结果排序、评论,以及第三方资源的嵌入等功能[9]。
随着开源检索系统、Web Services、APIs等技术的发展成熟,图书馆可以采用更加灵活的方式实现图书馆资源的发现服务[10],在网络级发现服务系统架构(图1)[11]的基础上,通过建立一个以发现为目的的中心索引集和模型,促进构建更加健壮的、易扩展的、可互操作的、异构分布的发现系统。
举例来说,EBSCO提供了EDS API接口服务,图书馆可以使用API接口来实现学术资源的发现服务,对于馆藏资源、自建数据库可以使用另外的商业发现平台软件,或是自建索引数据库,而对于界面展示,可以使用发现系统的原生平台,也可以使用开源系统,如EDS API(或其它发现系统的API接口)加前端展示平台,可利用Drupal、Vufind、Blacklight、Koha等开源软件实现,斯坦福大学图书馆的EDS API和VuFind的架构[12],印第安纳大学图书馆EDS API和Blacklight的架构[13]即是如此。图书馆也可以自己搭建基于本地元数据检索服务的Solr服务器实现排序,通过Vufind/Blacklight或其它平台进行展示,如哥伦比亚大学图书馆元数据加Solr引擎加Blacklight的架构,实现了“Quicksearch performs a combined search”的组合检索,可同时搜索馆藏目录(图书、期刊、在线资源、视频等)、电子资源(期刊、电子书、学位论文等)、学院公开(机构库)、圖书馆网站、地理数据(哥伦比亚地理空间数据集目录)等,检索结果分区块显示[14]。还有一种模式是新加坡国家图书馆的OneSearch系统,只有电子期刊资源使用了发现系统接口,其它所有馆藏资源元数据通过Solr构建索引,图书馆自己完成与其它资源的整合、揭示和展现[15]。
此外,随着移动通信信息技术的发展,实现了基于HTML5的页面自适应功能,以满足不同终端、移动用户的访问需求。通过Web Service服务,可以使发现系统独立于图书馆集成管理系统。随着技术手段的进步,通过更加灵活的系统架构实现发现系统的服务功能是未来发展的趋势。
新技术发展的同时也推动了图书馆业务流程的重组。基于元数据的资源发现获取首先要有一个有效的元数据收集管理平台和数据管理人员。内容管理是关键,对于购买的学术资源数据库,需要长期的跟踪,并熟悉各类数据库资源的情况。系统的构建整合也需要专业的技术支持团队,现在很多图书馆已经采用外包模式,而外包团队的稳定和技术能力至关重要。同时,还需要系统的长期维护人员,协调各个环节的数据和业务流程。如何提高系统的稳定性和适用性,采用高效的业务管理流程至关重要。
3 公共图书馆资源发现系统发展探讨
3.1 “上图发现”基本情况介绍——基于EDS的发现服务
上海图书馆2013年申报了“数字图书馆资源发现与服务平台”项目,开始进行资源发现系统的选型评估,从技术因素、元数据质量和覆盖率、全文获取、功能性能和服务能力等多个方面进行考察评估[17],经过一年半的需求调研、资源整理、厂商测评、招标实施、平台测试,于2014年7月开始试运行。该发现系统采用了EDS(Find+) 本地化的资源发现服务,当时主要考虑的因素是本地技术支持强,EDS元数据质量高,以及EBSCO数据库的支持。
资源架构主要分为学术资源和馆藏资源。学术资源分为外文学术资源(使用EDS发现服务)和中文学术资源(Find+中文发现平台),按检索关键词来进行判别区分;馆藏资源包含了馆藏书目和数字阅读资源(由Find+提供技术支持)。
(1)服务方式上,Find+的服务器在阿里云上,外文资源检索是通过阿里云服务器将请求发送到美国EBSCO EDS云服务器,Find+阿里云服务器只传递检索请求,检索任务的完成都在美国服务器端。中文资源发现访问的是Find+服务器群上的中文发现,包含维普万方等元数据,通过一台馆内服务器跳转,获取访问权限,全文链接使用的是官网资源。馆藏书目元数据和自建资源(市民数字阅读) 的元数据架构在上图自有服务器上。
(2)检索策略方面,对于已购资源尽可能全面地覆盖;对于本馆未购资源,发现与服务平台提供元数据的,一并纳入统一检索。系统实现了馆藏外文学术资源数据库88%的覆盖率,除了外文数据库以外,还包含二次文献数据库、OA资源等;不包含光盘资源、专利、标准、参考工具、历史文献,以及不再更新的数字资源。中文学术资源由于元数据授权等问题,目前包含万方和维普两种学术资源数据库。学术资源元数据根据每年馆内资源新增和变化进行更新,馆藏目录数据定期更新。
(3)检索功能包含了基本检索、检索结果排序、分面/聚类、高级检索、相关检索、二次检索等功能,基本满足了读者的各类检索需求;可进行全文下载,通过LinkSource链接全文;提供A-to-Z资源导航、RSS订阅、检索结果导出、邮件等功能。系统整合了上图用户认证接口,支持单点登录,同时支持网上用户注册。用户登录一次后可访问数据库的全文,无需再次登录。目前在局域网内登录即可获取全文,馆外用户获取外文资源需要登录VPN。
(4)“馆藏目录”部分包括OPAC的所有馆藏书目数据,在揭示OPAC信息的基础上,扩展提供封面、目录、简介等多种书目增值服务信息。此外,系统最初建设时,对“市民数字阅读”的资源进行了整合,囊括了30余万种来自方正、龙源、博看、新华e店、盛大等9家厂商的电子图书、期刊、报纸等电子资源,在检索结果中实现了“纸电合并”功能,能够进行统一检索。上海图书馆是国内首家大规模引入网络文学的公共图书馆,在系统建设初期取得了不错的反响。与盛大文学的合作,为读者提供了包括数字图书、网络文学、数字报刊等数字商品,最多的时候收录了盛大文学1.1万种网络文学作品。新华e店是新华传媒打造的新华数字书店,品种覆盖文艺、社科、生活、健康、文化、教育等各个类别,主打群众喜爱阅读的图书品种,作品以近三年新书为主,部分图书做到线上线下同步发售,最初包含3万余种电子图书。目前,由于两家公司业务变更、资源调整,原先提供服务的“市民数字阅读”的很多资源已经下架。对此,数字阅读正在探索新的服务模式,以前“市民数字阅读”资源考虑的是一次性导入的问题,今后将通过建设内容管理平台EPUB,通过直接访问接口或数据库的方式提供更优质的服务。 3.2 “上图发现”平台运行维护情况以及存在的问题
“上图发现”投入使用以来,系统经过了不断的改进和优化,主要包含以下几个方面。
(1) 中文检索结果的排序优化,以及资源的合并去重。由于EDS平台本身采用了优化的相关度排序,如同Google/Baidu等搜索引擎的做法,先经过词频/密度分析,关键词键入后,再按命中检索词匹配主题词、篇名/刊名、关键词、摘要、全文等不同的权重计算进行排序。针对中文检索结果出现的完全匹配的结果没有排在第一页的问题,经过优化后,采用默认“所有字段”,按检索关键词和标题完全一致的排第一,然后再按检索关键词在所有字段中出现的词频词密度排序。
(2) 从原先A-to-Z期刊导航功能升级为Full Text Finder,新版本改变了原先的期刊分类方式,采用按主题划分,并增加了智能补充拼写功能。
(3) 还有一些细微处的用户体验改进,如检索历史默认为按时间顺序排列,不方便用户查看,优化后改为按降序排列。
“上图发现”平台使用过程中还存在诸多问题,包括:系统存在一定程度的不稳定性,服务器数据库问题曾导致用户收藏夹、检索历史内容丢失;缓存服务问题导致全文下载无法打开;云服务不稳定导致检索结果为“0”等情况。此外,统计数据无法真实反映资源发现系统到各数据库的链接使用情况,由于外文数据的访问统计是根据访问文章的详细页做的数据库统计,名称通常和所订购的数据库名无法对应。而EDS本身自带的统计平台,由于检索的策略问题,数据库访问统计数据量非常大,对于同一个检索会同时产生多次访问,无法准确统计数据库访问的情况。平台建设初期设想是通过资源发现系统中各类资源的使用情况来调整资源采购策略,但是馆外获取的外文全文数据库资源有限,加上有的中文數据库受版权限制不能通过元数据揭示,这些都导致了发现系统使用率不高,也缺乏具体数据库访问的统计数据,无法起到决策支持作用。
3.3 公共图书馆资源发现系统应用问题
(1)目前,馆外全文获取实现方式主要是通过VPN进行授权访问,或是通过EZPROXY代理认证。使用VPN方式最大的问题在于只支持静态IP数据库,早前的ProQuest、Springer都采用了CDN加速服务,使用动态IP,对于这类资源VPN方式无法实现远程授权访问。此外,VPN对于系统环境的要求,以及首次使用需要安装插件等操作影响了用户的使用体验。
(2)资源发现系统无法实现与图书馆集成管理系统的实时交互,存在数据滞后,以及系统缺少相关接口导致的功能实现方面的缺陷,书目检索功能需要强化。
(3)所有发现系统的共同的问题是外文学术搜索不同来源资源的重复问题,目前还无法解决。由于发现系统是基于元数据的,直接揭示到期刊/文章,而图书馆已购数据库中存在期刊重复问题,所以无法判断期刊的来源数据库,也无法为采访部门提供相关的参考信息。
(4)对于专业的图书馆用户和参考咨询馆员来说,查全并不意味着好用,需要进行判断筛选,专业用户往往更倾向于直接查找对应的数据库,有针对性地找到所需要的资源。有研究表明基于全网域的发现服务比单个数据库的效率要低[18]。
(5)发现系统厂商缺少必要的系统监督机制,用户在使用过程中往往会发现很多问题,用户体验有待进一步优化。
3.4 上海图书馆下一代发现服务探索
上海图书馆新版网站主页采用发现系统作为图书馆统一资源发现门户,要提高系统的稳定性、健全性,以提供更好的用户体验。系统改进发展的主要方向有:页面对移动终端的支持,实现响应式页面设计;纳入更多的馆藏数字资源,包括全国报刊索引、历史文献资源等,实现自建资源的发现调整升级;对于没有全文的资源,提供文献传递服务;改变馆外全文获取的授权方式;完善统计分析功能。
EDS发现平台外文及OA元数据资源丰富,相关性排序效率高,全文链接方式多元,包含EBSCOhost全文数据库、智能链接SmartLink、DOI Crossref全文链接、出版社提供直接连接CustomLink、链接解析器Link Resolver等,目前发现系统可扩展的功能主要有:检索结果集按照某个学科/主题进行定制、检索词学术趋势分析、可视化展示、基于发现数据的学科推荐、按学科进行资源导航、表达式检索功能等;提供开放的接口服务,如检索框接口,用户收藏、检索历史接口,交互认证接口等。EDS原生平台在很多方面都做了尝试,如提供相关主题扩展检索,PlumPrint补充计量学指标统计,提供能够预测读者意图、突出显示内容和读者互动的APPs,实现了全文链接的自动检查,并与百度学术进行了整合(包含百度学术检索结果推荐、全文链接和被引情况等),具备翻译和建议词表,实现了基于集团文献传递的电子资源共享,可以进行引文检索,以及基于Google Analytics、百度统计、PIWIK开源统计软件的实时用户访问统计分析等。同时,平台采用了HTML5技术,实现了页面自适应功能,满足了读者在移动终端上的访问。
在未来的发展过程中,为了实现更灵活的异构数据的整合揭示和发现展示,发现平台可以仅提供作为学术资源元数据整合和检索排序的支撑。图书馆可以使用开源软件构建发现层,或者是购买商业软件产品实现发现系统的检索和展示;后台除了自建、开放存取以及授权的元数据以外,还可以通过发现系统集成商提供的API接口调用实现元数据的统一检索和获取。图书馆可以根据自有资源建立索引数据库实现资源的索引排序,也可以调用商业资源发现软件产品的API接口,这种方式使得系统架构更加灵活,满足图书馆各类异构资源的检索展示需求。
作为上海图书馆新一代图书馆服务系统项目的一个组成部分,资源发现系统的定位是支持未来数据服务的基础系统。如何利用好现有系统,实现更多的功能扩展,管理好数据,并将这些数据揭示给图书馆的各类用户,系统如何架构,是当前要探讨的主要内容。图2是我们目前的一些设想,资源检索可以使用成熟的发现产品,或是其提供的API接口,通过和本地Solr索引服务的整合,采用混合的、多层次的、更灵活的架构实现方式,实现各类异构数据的统一发现服务。在实现过程中,构建有效的资源索引发现服务和增强检索结果的相关性排序是发现服务要解决的关键性问题。 4 结语
《中华人民共和国公共图书馆法》总则里提到:提高公共图书馆的服务效能,需要发挥科技在公共图书馆建设、管理和服务中的作用,利用好现代信息技术和传播技术,提高图书馆服务质量和水平。公共图书馆发现系统面向大众提供服务时,既要做好面向大众的资源揭示服务,也要考虑专业用户的需求,能够提供按主题/学科的资源定制服务。在明确系统服务群体的基础上,做好宣传推广工作,加强用户的引导和交流,重视读者服务中心等核心用户群,定期进行推广培训。正如上海图书馆原馆长吴建中先生所说:“各类系统的构建实施都要以更好地支撑图书馆服务为目的,通过技术创新、服务创新、手段创新不断提升图书馆的服务效能。”
参考文献:
GROSS J, SHERIDAN L. Web scale discovery:the user experience[J]. New Library World,2011,112(5/6):236-247.
陈芳.“985 工程”高校图书馆发现系统检索功能调研分析[J].大学图书情报学刊,2017,35(5):113-119.
Major Discovery Products[EB/OL].[2018-02-06]. https://librarytechnology.org/discovery/.
BURKE J J, TUMBLESON B E. Search systems and finding tools[R]. Library Technology Reports,2016,52(2):17-23.
BREEDING M. Library resource discovery products: context, library perspectives, and vendor positions[R].Library technology reports,2014,50(1):7,11,16,21.
張红.基于大数据技术的资源发现平台构建:以国家图书馆“文津搜索”系统为例[J].数字图书馆论坛,2016(1):61-67.
LI F, THOMES C. Implementing discipline-specific searches in EBSCO Discovery Service[J]. New Library World,2014,115(3/4):102-115.
刘伟成, MISCHO W, SCHLEMBACH M, 等.一种基于Bento模式的联邦检索系统[J].图书情报工作,2017,61(19):113-121.
张平杉.开源OPAC 2.0:VuFind应用研究[J].现代图书情报技术,2008,24(10):85-89.
BABU B P, KRISHNAMURTHY M. Library automation to resource discovery: a review of emerging challenges[J]. The Electronic Library,2013,31(4):433-451.
THOMPSON J. Implementing web-scale discovery services: a practical guide for librarians[M]. Lanham, Maryland: The Rowman&Littlefield Publishing Group,Inc.,2014:10.
Stanford libraries[EB/OL].[2018-01-23].http://library.stanford.edu/.
Indiana University Bloomington[EB/OL].[2018-01-23].https://libraries.indiana.edu/.
Columbia University Libraries[EB/OL].[2018-01-23]. http://library.columbia.edu/index.html.
OneSearch[EB/OL].[2018-01-23].http://search.nlb.gov.sg/.
张平杉,章伟煊.新一代开源OPAC系统比较研究[J]. 现代图书情报技术,2011,27(2):21-28.
孙宇,张磊,刘炜.图书馆资源发现系统选型研究[J]. 图书馆杂志,2013,32(12):63-70.
LEE B, CHUNG E. An analysis of web-scale discovery services from the perspective of user’s relevance judgment[J]. The Journal of Academic Librarianship, 2016(42):529-534.
关键词 资源发现 知识发现 发现服务 资源发现系统 公共图书馆
分类号 G254.92
DOI 10.16810/j.cnki.1672-514X.2019.04.016
Abstract The resource discovery system has made rapid development at domestic and overseas libraries in recent years. This paper presents the current application situation of the resource discovery system in public libraries, and the advancement of technology development to the unified resource discovery system. Combined with operation and maintenance of resource discovery system in Shanghai Library, the existing problems of the resource discovery system of the public library and the direction of the future development of the discovery system are discussed.
Keywords Resource discovery. Knowledge discovery. Discovery service. Resource discovery system. Public library.
2009年,基于全网域的资源发现服务(Web-Scale Discovery Services)引入图书馆[1],用来揭示馆藏资源。该系统基于海量的元数据集合,具有技术的先进性和检索界面易用性等优势,可以对图书馆自建和外购资源统一发现和获取。截至2016年,国内985高校图书馆资源发现系统的覆盖率已达到100%[2],但是,省级公共图书馆对此类发现系统的使用还比较少。上海图书馆作为全国首家尝试在公共图书馆提供发现服务的机构,于2013年开始探索发现系统在公共图书馆的应用,并于2014年上线了“上图发现”,实现了基于元数据的馆藏数字资源和书目资源的统一检索。经过三年多的服务应用,上海图书馆在积累经验的同时,也在使用过程中发现了一些问题。对此,本文将结合上海图书馆资源发现系统的运行及维护情况,介绍公共图书馆资源发现系统在应用中存在的问题,并探讨未来公共图书馆资源发现系统的改进和发展方向。
1 公共图书馆资源发现系统应用现状
美国图书自动化专家Marshall Breeding对发现产品的定义为:“发现产品包含一个面向用户的图书馆资源查找界面,并通过适当的机制使用户获得感兴趣的条目。发现产品往往与特定的图书馆资源管理应用程序无关,如图书馆集成系统、图书馆服务平台、数据仓储或电子资源管理系统等。在大多数情况下,它们可以访问各种类型的资源,独立于管理平台。发现产品提供了一个具有搜索和检索功能的接口,通常具有基于搜索结果的相关性排序功能,可以根据特定类别、著者或日期范围限定结果的分面。发现产品使用合法的访问授权、内容类型和许可的机制来提供对资源的访问。这些机制包括识别资源当前的物理位置和状态,以提供连接、直接浏览或下载文章、章节、电子书,或其它电子文本,并提供数字图像或多媒体内容。发现产品也可以具有社会特征,使图书馆的用户可以评论、评价或推荐分享,与其他用户进行动态交互”[3]。目前主流的发现服务产品和公司包括EBSCO Discovery Service(EBSCO)、Encore Discovery Solution(Innovative Interfaces)、Primo(ExLibris, a ProQuest Company)、Summon(ProQuest)、Worldcat Local(OCLC)、Enterprise(SirsiDynix)等[4]。Marshall Breeding的 《Library Technology Reports》 曾對美国、英国、加拿大、澳大利亚等地区的396家图书馆进行了资源发现系统的问卷调研,其中包含96家公共图书馆,对于发现产品的总体性能的满意程度,以及用户界面的友好性均值最高的是EBSCO Discovery Service(EDS),馆藏揭示的全面性得分最高的是Worldcat Local,相关性排序结果的有效性得分最高的是VuFind[5]。
目前,国内23个省级公共图书馆中,辽宁省图书馆使用Primo资源发现平台,山东省图书馆使用百度知识发现,吉林省图书馆和南京图书馆使用超星发现系统。直辖市公共图书馆中,首都图书馆、重庆图书馆使用Primo发现平台,上海图书馆使用EDS(FIND+) 本地化的资源发现平台。国家图书馆没有使用商业化的成品软件,而是采用了分布式系统架构和大数据技术开发了“文津搜索”系统,比起商业软件系统架构更加灵活,可扩展性好[6]。
2 技术进步对资源统一发现系统的推动
资源发现系统基于元数据的整合检索,从架构上被认为是早前联邦检索的替代产品,联邦检索在资源检索时实现多个库的同时跨库检索,主要限制因素是缺少结果的相关性排序,检索结果返回需要较长的时间,以及减少了数据库本地接口组件提供的搜索功能[7]。但是从另一个角度来看,联邦检索对于不便集成到资源发现系统里的数据可以实现初步的统一检索和揭示。国外多家高校图书馆实现了基于Bento盒子展示的联邦检索系统,检索结果采用多窗格布局模式,系统在发现服务平台的基础上,通过APIs(Application Programming Interfaces) 接口服务,实现同时检索展示馆藏目录、数字资源、自建资源数据库等内容,比较灵活地实现馆藏所有资源的统一检索发现服务[8]。 近年来,基于Web2.0功能的发现展示开源平台也取得了较快的发展,目前比较流行的开源软件平台有Drupal、Vufind、Blacklight、Koha等,都可以实现检索结果的分面显示和Web 2.0功能。业内比较熟悉的Vufind平台,最早被开发用来实现OPAC 2.0的相关功能,包含分面浏览、检索结果排序、评论,以及第三方资源的嵌入等功能[9]。
随着开源检索系统、Web Services、APIs等技术的发展成熟,图书馆可以采用更加灵活的方式实现图书馆资源的发现服务[10],在网络级发现服务系统架构(图1)[11]的基础上,通过建立一个以发现为目的的中心索引集和模型,促进构建更加健壮的、易扩展的、可互操作的、异构分布的发现系统。
举例来说,EBSCO提供了EDS API接口服务,图书馆可以使用API接口来实现学术资源的发现服务,对于馆藏资源、自建数据库可以使用另外的商业发现平台软件,或是自建索引数据库,而对于界面展示,可以使用发现系统的原生平台,也可以使用开源系统,如EDS API(或其它发现系统的API接口)加前端展示平台,可利用Drupal、Vufind、Blacklight、Koha等开源软件实现,斯坦福大学图书馆的EDS API和VuFind的架构[12],印第安纳大学图书馆EDS API和Blacklight的架构[13]即是如此。图书馆也可以自己搭建基于本地元数据检索服务的Solr服务器实现排序,通过Vufind/Blacklight或其它平台进行展示,如哥伦比亚大学图书馆元数据加Solr引擎加Blacklight的架构,实现了“Quicksearch performs a combined search”的组合检索,可同时搜索馆藏目录(图书、期刊、在线资源、视频等)、电子资源(期刊、电子书、学位论文等)、学院公开(机构库)、圖书馆网站、地理数据(哥伦比亚地理空间数据集目录)等,检索结果分区块显示[14]。还有一种模式是新加坡国家图书馆的OneSearch系统,只有电子期刊资源使用了发现系统接口,其它所有馆藏资源元数据通过Solr构建索引,图书馆自己完成与其它资源的整合、揭示和展现[15]。
此外,随着移动通信信息技术的发展,实现了基于HTML5的页面自适应功能,以满足不同终端、移动用户的访问需求。通过Web Service服务,可以使发现系统独立于图书馆集成管理系统。随着技术手段的进步,通过更加灵活的系统架构实现发现系统的服务功能是未来发展的趋势。
新技术发展的同时也推动了图书馆业务流程的重组。基于元数据的资源发现获取首先要有一个有效的元数据收集管理平台和数据管理人员。内容管理是关键,对于购买的学术资源数据库,需要长期的跟踪,并熟悉各类数据库资源的情况。系统的构建整合也需要专业的技术支持团队,现在很多图书馆已经采用外包模式,而外包团队的稳定和技术能力至关重要。同时,还需要系统的长期维护人员,协调各个环节的数据和业务流程。如何提高系统的稳定性和适用性,采用高效的业务管理流程至关重要。
3 公共图书馆资源发现系统发展探讨
3.1 “上图发现”基本情况介绍——基于EDS的发现服务
上海图书馆2013年申报了“数字图书馆资源发现与服务平台”项目,开始进行资源发现系统的选型评估,从技术因素、元数据质量和覆盖率、全文获取、功能性能和服务能力等多个方面进行考察评估[17],经过一年半的需求调研、资源整理、厂商测评、招标实施、平台测试,于2014年7月开始试运行。该发现系统采用了EDS(Find+) 本地化的资源发现服务,当时主要考虑的因素是本地技术支持强,EDS元数据质量高,以及EBSCO数据库的支持。
资源架构主要分为学术资源和馆藏资源。学术资源分为外文学术资源(使用EDS发现服务)和中文学术资源(Find+中文发现平台),按检索关键词来进行判别区分;馆藏资源包含了馆藏书目和数字阅读资源(由Find+提供技术支持)。
(1)服务方式上,Find+的服务器在阿里云上,外文资源检索是通过阿里云服务器将请求发送到美国EBSCO EDS云服务器,Find+阿里云服务器只传递检索请求,检索任务的完成都在美国服务器端。中文资源发现访问的是Find+服务器群上的中文发现,包含维普万方等元数据,通过一台馆内服务器跳转,获取访问权限,全文链接使用的是官网资源。馆藏书目元数据和自建资源(市民数字阅读) 的元数据架构在上图自有服务器上。
(2)检索策略方面,对于已购资源尽可能全面地覆盖;对于本馆未购资源,发现与服务平台提供元数据的,一并纳入统一检索。系统实现了馆藏外文学术资源数据库88%的覆盖率,除了外文数据库以外,还包含二次文献数据库、OA资源等;不包含光盘资源、专利、标准、参考工具、历史文献,以及不再更新的数字资源。中文学术资源由于元数据授权等问题,目前包含万方和维普两种学术资源数据库。学术资源元数据根据每年馆内资源新增和变化进行更新,馆藏目录数据定期更新。
(3)检索功能包含了基本检索、检索结果排序、分面/聚类、高级检索、相关检索、二次检索等功能,基本满足了读者的各类检索需求;可进行全文下载,通过LinkSource链接全文;提供A-to-Z资源导航、RSS订阅、检索结果导出、邮件等功能。系统整合了上图用户认证接口,支持单点登录,同时支持网上用户注册。用户登录一次后可访问数据库的全文,无需再次登录。目前在局域网内登录即可获取全文,馆外用户获取外文资源需要登录VPN。
(4)“馆藏目录”部分包括OPAC的所有馆藏书目数据,在揭示OPAC信息的基础上,扩展提供封面、目录、简介等多种书目增值服务信息。此外,系统最初建设时,对“市民数字阅读”的资源进行了整合,囊括了30余万种来自方正、龙源、博看、新华e店、盛大等9家厂商的电子图书、期刊、报纸等电子资源,在检索结果中实现了“纸电合并”功能,能够进行统一检索。上海图书馆是国内首家大规模引入网络文学的公共图书馆,在系统建设初期取得了不错的反响。与盛大文学的合作,为读者提供了包括数字图书、网络文学、数字报刊等数字商品,最多的时候收录了盛大文学1.1万种网络文学作品。新华e店是新华传媒打造的新华数字书店,品种覆盖文艺、社科、生活、健康、文化、教育等各个类别,主打群众喜爱阅读的图书品种,作品以近三年新书为主,部分图书做到线上线下同步发售,最初包含3万余种电子图书。目前,由于两家公司业务变更、资源调整,原先提供服务的“市民数字阅读”的很多资源已经下架。对此,数字阅读正在探索新的服务模式,以前“市民数字阅读”资源考虑的是一次性导入的问题,今后将通过建设内容管理平台EPUB,通过直接访问接口或数据库的方式提供更优质的服务。 3.2 “上图发现”平台运行维护情况以及存在的问题
“上图发现”投入使用以来,系统经过了不断的改进和优化,主要包含以下几个方面。
(1) 中文检索结果的排序优化,以及资源的合并去重。由于EDS平台本身采用了优化的相关度排序,如同Google/Baidu等搜索引擎的做法,先经过词频/密度分析,关键词键入后,再按命中检索词匹配主题词、篇名/刊名、关键词、摘要、全文等不同的权重计算进行排序。针对中文检索结果出现的完全匹配的结果没有排在第一页的问题,经过优化后,采用默认“所有字段”,按检索关键词和标题完全一致的排第一,然后再按检索关键词在所有字段中出现的词频词密度排序。
(2) 从原先A-to-Z期刊导航功能升级为Full Text Finder,新版本改变了原先的期刊分类方式,采用按主题划分,并增加了智能补充拼写功能。
(3) 还有一些细微处的用户体验改进,如检索历史默认为按时间顺序排列,不方便用户查看,优化后改为按降序排列。
“上图发现”平台使用过程中还存在诸多问题,包括:系统存在一定程度的不稳定性,服务器数据库问题曾导致用户收藏夹、检索历史内容丢失;缓存服务问题导致全文下载无法打开;云服务不稳定导致检索结果为“0”等情况。此外,统计数据无法真实反映资源发现系统到各数据库的链接使用情况,由于外文数据的访问统计是根据访问文章的详细页做的数据库统计,名称通常和所订购的数据库名无法对应。而EDS本身自带的统计平台,由于检索的策略问题,数据库访问统计数据量非常大,对于同一个检索会同时产生多次访问,无法准确统计数据库访问的情况。平台建设初期设想是通过资源发现系统中各类资源的使用情况来调整资源采购策略,但是馆外获取的外文全文数据库资源有限,加上有的中文數据库受版权限制不能通过元数据揭示,这些都导致了发现系统使用率不高,也缺乏具体数据库访问的统计数据,无法起到决策支持作用。
3.3 公共图书馆资源发现系统应用问题
(1)目前,馆外全文获取实现方式主要是通过VPN进行授权访问,或是通过EZPROXY代理认证。使用VPN方式最大的问题在于只支持静态IP数据库,早前的ProQuest、Springer都采用了CDN加速服务,使用动态IP,对于这类资源VPN方式无法实现远程授权访问。此外,VPN对于系统环境的要求,以及首次使用需要安装插件等操作影响了用户的使用体验。
(2)资源发现系统无法实现与图书馆集成管理系统的实时交互,存在数据滞后,以及系统缺少相关接口导致的功能实现方面的缺陷,书目检索功能需要强化。
(3)所有发现系统的共同的问题是外文学术搜索不同来源资源的重复问题,目前还无法解决。由于发现系统是基于元数据的,直接揭示到期刊/文章,而图书馆已购数据库中存在期刊重复问题,所以无法判断期刊的来源数据库,也无法为采访部门提供相关的参考信息。
(4)对于专业的图书馆用户和参考咨询馆员来说,查全并不意味着好用,需要进行判断筛选,专业用户往往更倾向于直接查找对应的数据库,有针对性地找到所需要的资源。有研究表明基于全网域的发现服务比单个数据库的效率要低[18]。
(5)发现系统厂商缺少必要的系统监督机制,用户在使用过程中往往会发现很多问题,用户体验有待进一步优化。
3.4 上海图书馆下一代发现服务探索
上海图书馆新版网站主页采用发现系统作为图书馆统一资源发现门户,要提高系统的稳定性、健全性,以提供更好的用户体验。系统改进发展的主要方向有:页面对移动终端的支持,实现响应式页面设计;纳入更多的馆藏数字资源,包括全国报刊索引、历史文献资源等,实现自建资源的发现调整升级;对于没有全文的资源,提供文献传递服务;改变馆外全文获取的授权方式;完善统计分析功能。
EDS发现平台外文及OA元数据资源丰富,相关性排序效率高,全文链接方式多元,包含EBSCOhost全文数据库、智能链接SmartLink、DOI Crossref全文链接、出版社提供直接连接CustomLink、链接解析器Link Resolver等,目前发现系统可扩展的功能主要有:检索结果集按照某个学科/主题进行定制、检索词学术趋势分析、可视化展示、基于发现数据的学科推荐、按学科进行资源导航、表达式检索功能等;提供开放的接口服务,如检索框接口,用户收藏、检索历史接口,交互认证接口等。EDS原生平台在很多方面都做了尝试,如提供相关主题扩展检索,PlumPrint补充计量学指标统计,提供能够预测读者意图、突出显示内容和读者互动的APPs,实现了全文链接的自动检查,并与百度学术进行了整合(包含百度学术检索结果推荐、全文链接和被引情况等),具备翻译和建议词表,实现了基于集团文献传递的电子资源共享,可以进行引文检索,以及基于Google Analytics、百度统计、PIWIK开源统计软件的实时用户访问统计分析等。同时,平台采用了HTML5技术,实现了页面自适应功能,满足了读者在移动终端上的访问。
在未来的发展过程中,为了实现更灵活的异构数据的整合揭示和发现展示,发现平台可以仅提供作为学术资源元数据整合和检索排序的支撑。图书馆可以使用开源软件构建发现层,或者是购买商业软件产品实现发现系统的检索和展示;后台除了自建、开放存取以及授权的元数据以外,还可以通过发现系统集成商提供的API接口调用实现元数据的统一检索和获取。图书馆可以根据自有资源建立索引数据库实现资源的索引排序,也可以调用商业资源发现软件产品的API接口,这种方式使得系统架构更加灵活,满足图书馆各类异构资源的检索展示需求。
作为上海图书馆新一代图书馆服务系统项目的一个组成部分,资源发现系统的定位是支持未来数据服务的基础系统。如何利用好现有系统,实现更多的功能扩展,管理好数据,并将这些数据揭示给图书馆的各类用户,系统如何架构,是当前要探讨的主要内容。图2是我们目前的一些设想,资源检索可以使用成熟的发现产品,或是其提供的API接口,通过和本地Solr索引服务的整合,采用混合的、多层次的、更灵活的架构实现方式,实现各类异构数据的统一发现服务。在实现过程中,构建有效的资源索引发现服务和增强检索结果的相关性排序是发现服务要解决的关键性问题。 4 结语
《中华人民共和国公共图书馆法》总则里提到:提高公共图书馆的服务效能,需要发挥科技在公共图书馆建设、管理和服务中的作用,利用好现代信息技术和传播技术,提高图书馆服务质量和水平。公共图书馆发现系统面向大众提供服务时,既要做好面向大众的资源揭示服务,也要考虑专业用户的需求,能够提供按主题/学科的资源定制服务。在明确系统服务群体的基础上,做好宣传推广工作,加强用户的引导和交流,重视读者服务中心等核心用户群,定期进行推广培训。正如上海图书馆原馆长吴建中先生所说:“各类系统的构建实施都要以更好地支撑图书馆服务为目的,通过技术创新、服务创新、手段创新不断提升图书馆的服务效能。”
参考文献:
GROSS J, SHERIDAN L. Web scale discovery:the user experience[J]. New Library World,2011,112(5/6):236-247.
陈芳.“985 工程”高校图书馆发现系统检索功能调研分析[J].大学图书情报学刊,2017,35(5):113-119.
Major Discovery Products[EB/OL].[2018-02-06]. https://librarytechnology.org/discovery/.
BURKE J J, TUMBLESON B E. Search systems and finding tools[R]. Library Technology Reports,2016,52(2):17-23.
BREEDING M. Library resource discovery products: context, library perspectives, and vendor positions[R].Library technology reports,2014,50(1):7,11,16,21.
張红.基于大数据技术的资源发现平台构建:以国家图书馆“文津搜索”系统为例[J].数字图书馆论坛,2016(1):61-67.
LI F, THOMES C. Implementing discipline-specific searches in EBSCO Discovery Service[J]. New Library World,2014,115(3/4):102-115.
刘伟成, MISCHO W, SCHLEMBACH M, 等.一种基于Bento模式的联邦检索系统[J].图书情报工作,2017,61(19):113-121.
张平杉.开源OPAC 2.0:VuFind应用研究[J].现代图书情报技术,2008,24(10):85-89.
BABU B P, KRISHNAMURTHY M. Library automation to resource discovery: a review of emerging challenges[J]. The Electronic Library,2013,31(4):433-451.
THOMPSON J. Implementing web-scale discovery services: a practical guide for librarians[M]. Lanham, Maryland: The Rowman&Littlefield Publishing Group,Inc.,2014:10.
Stanford libraries[EB/OL].[2018-01-23].http://library.stanford.edu/.
Indiana University Bloomington[EB/OL].[2018-01-23].https://libraries.indiana.edu/.
Columbia University Libraries[EB/OL].[2018-01-23]. http://library.columbia.edu/index.html.
OneSearch[EB/OL].[2018-01-23].http://search.nlb.gov.sg/.
张平杉,章伟煊.新一代开源OPAC系统比较研究[J]. 现代图书情报技术,2011,27(2):21-28.
孙宇,张磊,刘炜.图书馆资源发现系统选型研究[J]. 图书馆杂志,2013,32(12):63-70.
LEE B, CHUNG E. An analysis of web-scale discovery services from the perspective of user’s relevance judgment[J]. The Journal of Academic Librarianship, 2016(42):529-534.