论文部分内容阅读
〔摘 要〕通过对异构资源统一检索平台深入研究的基础上,归纳了可用于实现统一检索的技术,并对现有的一些检索平台进行了分析和比较。在此基础上对如何完善异构资源统一检索平台提出了建议。
〔关键词〕统一检索;异构资源;检索平台
〔中图分类号〕G250 〔文献标识码〕A 〔文章编号〕1008-0821(2009)09-0173-02
Research on the Unified Searching Platforms of Heterogeneous ResourceXv Lingfang Luo Danmei
(Library,Jiangsu University,Zhenjiang 212013,China)
〔Abstract〕This paper researched on the unified searching platforms of heterogeneous resources.After generalizing the techniques of unified searching and discussing the existing platforms,some advices were brought forward to prefect the unified searching platforms of heterogeneous resource.
〔Key words〕unified searching;heterogeneous resource;searching platforms
数字化信息资源由于其方便快捷的获取、高查全率、不受限制等优点,广受用户的青睐,越来越多的人开始通过网络来获取他们所需要的信息[1]。
但是书目数据库、题录、文摘数据库、全文数据库、电子期刊和相关网站等各类数字资源品目繁杂,各类数据资源的存储和读取格式也不尽相同,具有分布式、异构性、访问方式各异和检索界面多样化等特点。人们忙碌于在各类数据库中徘徊,忙碌于对各种用户界面和检索规则的熟悉,忙碌于不同格式数字资源的读取。如何快速、便捷地找到并读取所需要的信息成为焦点。人们希望能够将这些资源与服务整合为一体,实现跨平台的无缝链接。用户只需一个检索指令在一个统一的界面上一次查得所需文献或信息[2]。如何将不同类型、不同结构、不同环境、不同用法的各类数据库纳入统一检索系统,使用户能方便、高效地获取信息已成为迫切需要解决的问题。
1 统一检索实现原理
统一检索是指采用统一的检索界面,对所有资源实现跨库跨平台检索,并将符合检索要求的记录一次性返回给读者,从而解决在传统独立检索环境下读者检索效率低下的问题[3]。这样能够对异构资源提供统一的检索界面和检索语言,提高资源的利用效率[4]。目前主要有基于特定协议和页面分析技术两种实现方式[3]。
1.1 基于特定协议技术
Z39.50协议[5]是一种客户机、服务器体系间信息检索的应用层协议。其使用通用语言获取信息,使客户端和服务器之间通讯、操作标准化,提供了用户界面与文献资源数据库服务器相分离的解决办法,已广泛应用于分布式检索系统中。但是该协议较复杂、学习难度大、开发困难、运行成本较高。而且这种客户机/服务器模式下的协议,不适合在Internet中推广使用。这限制了其在统一检索系统中的使用。
OpenURL(Z39.88)协议[6]是一种开放的信息资源与查询服务之间的通信协议标准,它通过规定的OpenURL框架规范对象的描述和传输,提供了在信息服务者之间传递对象元数据的格式。异构资源可通过OpenURL协议对框架中各组件元素进行注册来实现相互通信。
OAI-PMH协议[5]以元数据收获的方式,从数据提供者处获取元数据,存储于本地的元数据库,然后在本地数据库基础上向用户提供基于元数据的统一检索服务。该协议是基于轻量级别的相互操作,由于数据的收获与仓储的具体实现无关,并不用开放其本地资源。因此,这种互操作框架较现实、可行,正逐步受到重视和应用。
Dublin Core规范参照图书馆卡片目录的模式,用来标识电子资源的一种简要目录模式。它制定了15项广义的元数据。全面简洁地概括了电子资源的主要特征,涵盖了资源的检索点及有价值的说明性信息。这些元数据同时适用于各类电子化目录,具有广泛的实用性。符合Dublin Core协议规范的数据可以用HTML、XML或者RDF格式表示,这为它在Web环境下的传输提供了很大的方便,可以使用HTTP、SOAP或者其他传输协议来交换数据。
Google Web APIs规范定义了搜索查询格式、搜索参数、过滤器、限制条件、输入输出编码等,以XML格式返回结果,且有一定的包装规范。随着Google学术搜索的推出,利用或者整合Google学术搜索服务对于开发统一检索系统具有一定的参考价值。
1.2 页面分析技术
页面分析技术是指通过对HTML页面的分析,提取其中有价值的部分解析为结构化信息,并作为进一步处理的基础[7]。页面分析技术的应用包括对检索页面的分析和对结果页面的分析两个方面。对检索页面的分析是指分析出资源系统的地址及检索路径、检索字段、检索表达式的构成规则等;对结果页面的分析是指分析出结果页面中关键字段表示方法的规律,从而准确地从页面中提取关键字段的内容。检索系统根据读者提交表单内容构造出各资源系统所对应的检索表达式,准确地从资源系统返回的检索结果中获取关键字段内容,输出给读者,实现统一检索功能[3]。
2 目前已有的统一检索库分析
目前国内许多图书馆都在进行异构数据统一检索的研究,许多软件公司也在开发类似系统,已投入使用或正在测试的统一检索平台有清华同方异构统一检索平台、CALIS统一检索平台、TRS资源整合门户、复鑫跨库检索平台、天宇异构资源统一检索平台、Metalib/SFX系统、MAP数据库资源系统等[8]。
清华同方异构统一检索平台USP是一个智能化的网络数据库检索平台,通过统一的用户界面,用户可实现在多个网络数据库搜索平台中信息检索。该平台提供简单检索、高级检索两种检索方式,并提供二次检索功能。数据库可以按中文数据库、外文数据库分类,也可以按学科分类。对于可检索数据库和电子图书,可以对篇名、作者、出版者、关键词、机构、刊名、全文、摘要、主题词、企业名称、负责人、经营范围、产品信息、产品关键词等字段进行检索。图书馆用户在查询多个数据库时不受Z39.50、OAI、OpenURL等协议的限制,任何数据库和电子图书都是统一检索平台的对象。
CALIS统一检索系统是中国高等教育文献保障系统中统一检索平台的一部分。该系统提供有简单检索、高级检索两种检索方式,不仅支持全文检索、相关度检索,还支持多种检索运算符并提供了可扩展的知识库;可检索的资源包括数据库、电子期刊、电子图书以及部分图书馆OPAC等,几乎可整合图书馆所有电子资源种类;系统提供了多种资源定位和查找方式,可对篇名、作者、ISSN、文摘、来源等字段进行检索;能够为用户提供特别的检索服务,方便用户精确定位信息。
TRS资源整合门户提供简单检索、高级检索两种检索方式。各数据库的检索字段可以不同,也可以在数据库检索字段的选择菜单中设置,支持不同目标资源的特定检索条件。可对数据库、电子期刊、图书馆OPAC以及网上免费资源等类型进行检索,可按学科等方式进行资源分类。
〔关键词〕统一检索;异构资源;检索平台
〔中图分类号〕G250 〔文献标识码〕A 〔文章编号〕1008-0821(2009)09-0173-02
Research on the Unified Searching Platforms of Heterogeneous ResourceXv Lingfang Luo Danmei
(Library,Jiangsu University,Zhenjiang 212013,China)
〔Abstract〕This paper researched on the unified searching platforms of heterogeneous resources.After generalizing the techniques of unified searching and discussing the existing platforms,some advices were brought forward to prefect the unified searching platforms of heterogeneous resource.
〔Key words〕unified searching;heterogeneous resource;searching platforms
数字化信息资源由于其方便快捷的获取、高查全率、不受限制等优点,广受用户的青睐,越来越多的人开始通过网络来获取他们所需要的信息[1]。
但是书目数据库、题录、文摘数据库、全文数据库、电子期刊和相关网站等各类数字资源品目繁杂,各类数据资源的存储和读取格式也不尽相同,具有分布式、异构性、访问方式各异和检索界面多样化等特点。人们忙碌于在各类数据库中徘徊,忙碌于对各种用户界面和检索规则的熟悉,忙碌于不同格式数字资源的读取。如何快速、便捷地找到并读取所需要的信息成为焦点。人们希望能够将这些资源与服务整合为一体,实现跨平台的无缝链接。用户只需一个检索指令在一个统一的界面上一次查得所需文献或信息[2]。如何将不同类型、不同结构、不同环境、不同用法的各类数据库纳入统一检索系统,使用户能方便、高效地获取信息已成为迫切需要解决的问题。
1 统一检索实现原理
统一检索是指采用统一的检索界面,对所有资源实现跨库跨平台检索,并将符合检索要求的记录一次性返回给读者,从而解决在传统独立检索环境下读者检索效率低下的问题[3]。这样能够对异构资源提供统一的检索界面和检索语言,提高资源的利用效率[4]。目前主要有基于特定协议和页面分析技术两种实现方式[3]。
1.1 基于特定协议技术
Z39.50协议[5]是一种客户机、服务器体系间信息检索的应用层协议。其使用通用语言获取信息,使客户端和服务器之间通讯、操作标准化,提供了用户界面与文献资源数据库服务器相分离的解决办法,已广泛应用于分布式检索系统中。但是该协议较复杂、学习难度大、开发困难、运行成本较高。而且这种客户机/服务器模式下的协议,不适合在Internet中推广使用。这限制了其在统一检索系统中的使用。
OpenURL(Z39.88)协议[6]是一种开放的信息资源与查询服务之间的通信协议标准,它通过规定的OpenURL框架规范对象的描述和传输,提供了在信息服务者之间传递对象元数据的格式。异构资源可通过OpenURL协议对框架中各组件元素进行注册来实现相互通信。
OAI-PMH协议[5]以元数据收获的方式,从数据提供者处获取元数据,存储于本地的元数据库,然后在本地数据库基础上向用户提供基于元数据的统一检索服务。该协议是基于轻量级别的相互操作,由于数据的收获与仓储的具体实现无关,并不用开放其本地资源。因此,这种互操作框架较现实、可行,正逐步受到重视和应用。
Dublin Core规范参照图书馆卡片目录的模式,用来标识电子资源的一种简要目录模式。它制定了15项广义的元数据。全面简洁地概括了电子资源的主要特征,涵盖了资源的检索点及有价值的说明性信息。这些元数据同时适用于各类电子化目录,具有广泛的实用性。符合Dublin Core协议规范的数据可以用HTML、XML或者RDF格式表示,这为它在Web环境下的传输提供了很大的方便,可以使用HTTP、SOAP或者其他传输协议来交换数据。
Google Web APIs规范定义了搜索查询格式、搜索参数、过滤器、限制条件、输入输出编码等,以XML格式返回结果,且有一定的包装规范。随着Google学术搜索的推出,利用或者整合Google学术搜索服务对于开发统一检索系统具有一定的参考价值。
1.2 页面分析技术
页面分析技术是指通过对HTML页面的分析,提取其中有价值的部分解析为结构化信息,并作为进一步处理的基础[7]。页面分析技术的应用包括对检索页面的分析和对结果页面的分析两个方面。对检索页面的分析是指分析出资源系统的地址及检索路径、检索字段、检索表达式的构成规则等;对结果页面的分析是指分析出结果页面中关键字段表示方法的规律,从而准确地从页面中提取关键字段的内容。检索系统根据读者提交表单内容构造出各资源系统所对应的检索表达式,准确地从资源系统返回的检索结果中获取关键字段内容,输出给读者,实现统一检索功能[3]。
2 目前已有的统一检索库分析
目前国内许多图书馆都在进行异构数据统一检索的研究,许多软件公司也在开发类似系统,已投入使用或正在测试的统一检索平台有清华同方异构统一检索平台、CALIS统一检索平台、TRS资源整合门户、复鑫跨库检索平台、天宇异构资源统一检索平台、Metalib/SFX系统、MAP数据库资源系统等[8]。
清华同方异构统一检索平台USP是一个智能化的网络数据库检索平台,通过统一的用户界面,用户可实现在多个网络数据库搜索平台中信息检索。该平台提供简单检索、高级检索两种检索方式,并提供二次检索功能。数据库可以按中文数据库、外文数据库分类,也可以按学科分类。对于可检索数据库和电子图书,可以对篇名、作者、出版者、关键词、机构、刊名、全文、摘要、主题词、企业名称、负责人、经营范围、产品信息、产品关键词等字段进行检索。图书馆用户在查询多个数据库时不受Z39.50、OAI、OpenURL等协议的限制,任何数据库和电子图书都是统一检索平台的对象。
CALIS统一检索系统是中国高等教育文献保障系统中统一检索平台的一部分。该系统提供有简单检索、高级检索两种检索方式,不仅支持全文检索、相关度检索,还支持多种检索运算符并提供了可扩展的知识库;可检索的资源包括数据库、电子期刊、电子图书以及部分图书馆OPAC等,几乎可整合图书馆所有电子资源种类;系统提供了多种资源定位和查找方式,可对篇名、作者、ISSN、文摘、来源等字段进行检索;能够为用户提供特别的检索服务,方便用户精确定位信息。
TRS资源整合门户提供简单检索、高级检索两种检索方式。各数据库的检索字段可以不同,也可以在数据库检索字段的选择菜单中设置,支持不同目标资源的特定检索条件。可对数据库、电子期刊、图书馆OPAC以及网上免费资源等类型进行检索,可按学科等方式进行资源分类。