论文部分内容阅读
摘 要:本文从编目数据的完整性、优化检索请求、在服务请求端建立索引、整合返回结果四个方面简要分析了如何提高基于Z39.50协议的虚拟联合目录的检索效率。
关键词:Z39.50 虚拟联合目录 检索优化
中图分类号:G433 文献标识码:A 文章编号:1673-1875(2009)24-094-01
一、引言
在信息爆炸的今天,独立运行的图书馆越来越难以现有馆藏满足读者需求,基于联合目录的馆际互借作为一种可以充分利用图书馆资源的模式得到了极大的推广。随着文献资源数量的激增以及人们对信息的需求水平的提高,以传统手工方式编制的书本式联合目录已越来越不能满足人们的需求。虚拟联合目录有效地回答了如何快捷、迅速、方便地找到所需要的图书、期刊目录信息以及各种电子资源的问题。
二、联合目录的建立
1、联合目录简介
虚拟联合目录是由若干个图书馆组成的一个联合共享团体所建的目录,各馆独立维护各自的数据库,但可以通过Z39.50 网关对各成员馆的数据库进行广播式检索,并返回检索结果列表。虽然国内目前以集中式联合目录为主,但虚拟目录是联合目录发展的方向,所以这里讨论虚拟联合目录下如何提高检索效率。
2、虚拟联合目录存在的问题
在分布式信息检索系统中,由于数据分散存放在不同的计算机上,所以存在检索反应时间慢,跨不同信息组织模式、不同国界,检索难度大,对于检索结果中存在的大量重复结果的删除与整合处理及相关信息本地优先原则的实现等方面还存在技术上的难题。
三、优化检索的策略
1、编目数据的完整性方面
在编目数据的完整性方面,如果数据库本身没有提供关键的检索点,图书馆的目录数据不够详细或不能反映全部馆藏状况,会造成查全率或查准率降低,即使Z39.50标准提供了丰富的检索选项,用户检索后得到的结果仍然不能令人满意。所以,在建立联合目录服务体系的过程中,要通过协调,确定成员单位的系统应支持哪些检索属性并指定统一格式加以规范,以保证目录服务的质量。
2、规范用户输入的查询条件
逻辑检索(主要是指布尔检索)是当今检索理论中最成熟的理论之一,也是构造检索表达式最基本、最简单的匹配模式。布尔逻辑检索是通过三种逻辑运算符即与,或,非,把一些具有简单概念的检索词(或检索项)组配成为一个具有复杂概念的检索式,用以表达用户的检索要求。
如果读者要查找一大类的书,例如虚拟联合目录同时在多个成员馆的OPAC系统中检索关于中国历史的图书,在自由查找栏中键入“中国”和(and)“历史”,这样所需的书目才能以最小的范围量出现。如果读者在查找单书的同时能够给出相对多的检索项目,那么出现的检索项就越少,查准率也就越大。
3、如何在服务请求端建立索引
当服务请求方仅提供了电子文献或图书的基本信息时,在广播式检索的过程中需要对查找的次序进行优化。
初步的思想就是,当服务请求方所要查找的某类文献或图书在响应方找到时,可以在服务请求方对响应方作出某种标记,据此建立索引,今后对于同样的或者类似的服务请求可以按照索引的顺序来检索,以提高检索效率。
分为以下四种情况来讨论。
(1)检索实体图书时,在现有的传送能力下,地域因素对时效性的影响是很大的,可以按照地理位置由近及远的顺序对各个成员馆加注权数,然后按照本地优先的原则建立一级索引。
(2)检索电子资源时,如果读者没有指定数据库,则分析读者输入的关键字,如果可以归类为某一类学科的电子资源,则优先检索专业数据库 例如化工类或者计算机类的专业数据库等等,设定数据库优先级。当然对关键字的分析方法还有待研究。
(3)检索电子资源时,在没有指定语言选项的前提下,如果请求方总是偏向于在检索结果中挑选同类语言的资源,则可以按照语言类别进行筛选,通常国内常用的电子资源可以按照语言分为中文,西文,日文,俄文等,如果总是选用国内的文献,则过滤掉其他语言的文献。
(4)另外还要考虑成员馆的期刊和数据库购买情况,至少包括以下几点:不能检索没有购买的数据库目录,或者只能获得检索目录而不提供全文;各个成员馆的工作时间的不同;著录馆际交流的特殊要求, 如凭证件限馆内阅览不复制供应等。以上信息都需要在本地注明,以便能筛选出最可靠的检索结果。
4、对结果进行排序,整合,去重
Z39.50是一种面向会话的、有状态的网络协议,能为客户机和服务器之间提供保持连接的连续会话机制,记录联机查询状态,因而可以保留用户在联机查询进程中的所有检索结果集(Result Set) ,并可供进一步合并或二次检索。目前多数系统很少能支持排序功能,而且返回的结果是没有整合的一组记录, 需要整合检索结果。
整合检索结果的过程就是根据联合目录的著录标准项进行去重和排序。例如通过比较实体图书的ISBN号进行去重的操作,通过比较题名和作者对电子文献进行去重操作,以及按照时间顺序排序的操作等。
以上建立索引及整合检索结果的过程对用户是透明的,即这些操作完全由计算机处理而无需人工干预,如果用户对结果不满意可以指定更详细的查询条件。此外,提高系统软硬件配置,均衡网络负载也是优化虚拟联合目录查询的必要条件。
关键词:Z39.50 虚拟联合目录 检索优化
中图分类号:G433 文献标识码:A 文章编号:1673-1875(2009)24-094-01
一、引言
在信息爆炸的今天,独立运行的图书馆越来越难以现有馆藏满足读者需求,基于联合目录的馆际互借作为一种可以充分利用图书馆资源的模式得到了极大的推广。随着文献资源数量的激增以及人们对信息的需求水平的提高,以传统手工方式编制的书本式联合目录已越来越不能满足人们的需求。虚拟联合目录有效地回答了如何快捷、迅速、方便地找到所需要的图书、期刊目录信息以及各种电子资源的问题。
二、联合目录的建立
1、联合目录简介
虚拟联合目录是由若干个图书馆组成的一个联合共享团体所建的目录,各馆独立维护各自的数据库,但可以通过Z39.50 网关对各成员馆的数据库进行广播式检索,并返回检索结果列表。虽然国内目前以集中式联合目录为主,但虚拟目录是联合目录发展的方向,所以这里讨论虚拟联合目录下如何提高检索效率。
2、虚拟联合目录存在的问题
在分布式信息检索系统中,由于数据分散存放在不同的计算机上,所以存在检索反应时间慢,跨不同信息组织模式、不同国界,检索难度大,对于检索结果中存在的大量重复结果的删除与整合处理及相关信息本地优先原则的实现等方面还存在技术上的难题。
三、优化检索的策略
1、编目数据的完整性方面
在编目数据的完整性方面,如果数据库本身没有提供关键的检索点,图书馆的目录数据不够详细或不能反映全部馆藏状况,会造成查全率或查准率降低,即使Z39.50标准提供了丰富的检索选项,用户检索后得到的结果仍然不能令人满意。所以,在建立联合目录服务体系的过程中,要通过协调,确定成员单位的系统应支持哪些检索属性并指定统一格式加以规范,以保证目录服务的质量。
2、规范用户输入的查询条件
逻辑检索(主要是指布尔检索)是当今检索理论中最成熟的理论之一,也是构造检索表达式最基本、最简单的匹配模式。布尔逻辑检索是通过三种逻辑运算符即与,或,非,把一些具有简单概念的检索词(或检索项)组配成为一个具有复杂概念的检索式,用以表达用户的检索要求。
如果读者要查找一大类的书,例如虚拟联合目录同时在多个成员馆的OPAC系统中检索关于中国历史的图书,在自由查找栏中键入“中国”和(and)“历史”,这样所需的书目才能以最小的范围量出现。如果读者在查找单书的同时能够给出相对多的检索项目,那么出现的检索项就越少,查准率也就越大。
3、如何在服务请求端建立索引
当服务请求方仅提供了电子文献或图书的基本信息时,在广播式检索的过程中需要对查找的次序进行优化。
初步的思想就是,当服务请求方所要查找的某类文献或图书在响应方找到时,可以在服务请求方对响应方作出某种标记,据此建立索引,今后对于同样的或者类似的服务请求可以按照索引的顺序来检索,以提高检索效率。
分为以下四种情况来讨论。
(1)检索实体图书时,在现有的传送能力下,地域因素对时效性的影响是很大的,可以按照地理位置由近及远的顺序对各个成员馆加注权数,然后按照本地优先的原则建立一级索引。
(2)检索电子资源时,如果读者没有指定数据库,则分析读者输入的关键字,如果可以归类为某一类学科的电子资源,则优先检索专业数据库 例如化工类或者计算机类的专业数据库等等,设定数据库优先级。当然对关键字的分析方法还有待研究。
(3)检索电子资源时,在没有指定语言选项的前提下,如果请求方总是偏向于在检索结果中挑选同类语言的资源,则可以按照语言类别进行筛选,通常国内常用的电子资源可以按照语言分为中文,西文,日文,俄文等,如果总是选用国内的文献,则过滤掉其他语言的文献。
(4)另外还要考虑成员馆的期刊和数据库购买情况,至少包括以下几点:不能检索没有购买的数据库目录,或者只能获得检索目录而不提供全文;各个成员馆的工作时间的不同;著录馆际交流的特殊要求, 如凭证件限馆内阅览不复制供应等。以上信息都需要在本地注明,以便能筛选出最可靠的检索结果。
4、对结果进行排序,整合,去重
Z39.50是一种面向会话的、有状态的网络协议,能为客户机和服务器之间提供保持连接的连续会话机制,记录联机查询状态,因而可以保留用户在联机查询进程中的所有检索结果集(Result Set) ,并可供进一步合并或二次检索。目前多数系统很少能支持排序功能,而且返回的结果是没有整合的一组记录, 需要整合检索结果。
整合检索结果的过程就是根据联合目录的著录标准项进行去重和排序。例如通过比较实体图书的ISBN号进行去重的操作,通过比较题名和作者对电子文献进行去重操作,以及按照时间顺序排序的操作等。
以上建立索引及整合检索结果的过程对用户是透明的,即这些操作完全由计算机处理而无需人工干预,如果用户对结果不满意可以指定更详细的查询条件。此外,提高系统软硬件配置,均衡网络负载也是优化虚拟联合目录查询的必要条件。