论文部分内容阅读
摘 要:通过对具有代表性的几个图书馆网站集成检索系统的功能和工作原理进行调查分析,总结了目前跨库检索系统呈现出的一些特点,分析存在的问题,并对集成检索的发展提出建议。
关键词:信息检索 集成检索 跨库检索 现状分析
引言
随着计算机存储技术和网络技术的发展,通过网络来提供数据库的查询检索成为图书馆重要的服务方式,图书馆购买和自建数据库数量和种类也日益增多。图书馆因电子信息资源便于传递和共享的特性普遍重视数据库的建设开发和利用。然而各数据库在数据结构、检索机制、检索操作以及图书馆系统软硬件支持条件等方面存在差异,在资源范围方面交叉重复, 使得用户检索负担过重。如何从用户角度一站式的检索多个不同类型的数据库资源,成为图书馆面临的主要问题之一,跨库检索系统就是为解。
1问题定义
跨数据库检索是数字图书馆的重要组成部分,它主要实现分布异构数据库的检索。跨数据库检索也称集成检索,联邦检索,分布式检索等。是以多个分布式异构数据源为对象的检索系统。这种系统向用户提供统一的检索接口,将用户的检索要求转化为不同数据源的检索表达式,并发地检索本地的和广域网上的多个分布式异构数据源,实现对不同数据库、不同数据源的查询,并对检索结果加以整合,在经过去重和排序等操作后,以统一的格式将结果呈现给用户。避免用户在各类检索工具之间进行切换,系统全面、准确、快捷地实现对众多数据库的同时查询,并且可以对检索到的资源进行有效的管理(集成管理)。
提供统一的检索接口,能够减轻用户学习检索不同数据源的负担;并发检索,能节省用户总的检索时间;结果整合,呈现给用户的最终结果格式统一,方便用户的浏览和选择。
2国内图书馆集成检索现状
图书馆建设中都将跨库检索作为一项重要的内容加以考虑,国内很多大中型图书馆都自建或购买了跨库检索系统但大多数系统还处在不断的调试和完善当中,国内跨库检索系统的建设,起步较晚,尚需要根据用户群的需求特征,借鉴其他系统的成功之处,不断完善。
通过对具有代表意义的图书馆集成检索系统在实现方式,功能特性,检索效率,特点等方面进行分析。发现系统的功能,特征不一而足,说明在这一领域的研发工作还处于探索阶段,仍有许多问题值得探讨。
2.1数字图书馆集成检索平台
2.1.1清华同方的USP检索平台跨库检索系统
"清华同方分布异构跨平台跨库智能检索系统"(USP Union Search Platform)平台通过Web访问的方式将其它网络数据库集成到总库平台,是网络数据库接入的一种(此外还有ODBC、OAI、Z29.50、OPENURL接入等)可以方便地管理本单位数字资源。通过统一用户界面帮助用户在多个网络数据库搜索平台中实现信息检索操作,是对分布于网络中的多种检索工具的智能化整合。
2.1.2中国知网(CNKI)跨库检索系统
该系统整合了中外文40多个数据库及超星和书生两种电子书,是全面支持知识信息资源建设、共享、增值应用、增值服务、运营管理以及网络出版的数字图书馆系统软件平台。是各大图书馆、情报所、教育城域网中心以及各大单位信息中心建立具备全球知识资源共享、个性化知识服务及网络出版功能的数字图书馆、学习中心必不可少的基础平台
2.2公共图书馆网站集成检索
国家图书馆的集成检索,采用同一个检索入口,是与各个资源检索相连接的,检索前需要预先选定资源的类型,每次只能选中一种,从集成检索的效果来看,并未整合各类型的资源,返回结果也不统一。
虽然设置了统一检索入口,降低了用户使用不同数据和检索方式在检索语言和条件方面的难度,但是在多数据库资源检索和多种类型资源检索方面并没有太多优势。
2.3大学图书馆网站集成检索系统
最具代表性的是清华大学图书馆跨库检索系统,依靠易搜平台进行资源的整合。同方易搜是CNKI采用先进的异构资源整合技术,是面向图书馆整合资源与服务的应用平台,是图书馆提供知识服务的新一代门户。具有统一导航、统一认证、统一检索、统一浏览、链接整合、统一维护、使用统计、资源建设、开放平台等功能。支持本地元数据仓储和分布异构资源两种资源整合技术路线,能整合90%以上常见资源,包括WEB资源、OPAC资源、Z3950资源、数据库资源、开放存取资源、纸质资源等。
其他高校图书馆网站集成检索系统平台建设的现状不一而足,有的已经推出了比较优秀的集成检索平台,有的还处于初级以及在建阶段,很多还是停留在传统的馆内书目查询,单个数据库的资源检索,没有进行整合和统一,在读者查询各类资源方面没有提供高效的方式。
3我国集成检索系统的主要问题及建议
3.1建立数据库源的统一规则和标准
目前我国集成检索数据库源的类型不同,建设的标准不统一,多数的搜索引擎都不能很好地实现对数据库的检索,多数数据库仍需通过特定的数据库接口以特定的方式进行检索。因此,如果没有相对统一的数据库建设标准和接口,那么开发数据库接口、建立索引库、实现不同数据间的格式转换等跨库检索系统的的构建工作将会不停地重复进行,既加重了系统开发的投资,又增加用户利用数据库的成本。
3.2完善检索功能和其他功能
跨数据库检索系统的基本功能包括简单检索、高级检索、专业检索、分类检索和期刊导航等。数据库的结构不同,供检索的字段不同,因此,同时检索多个数据库时,应该尽最大可能提供更多的检索点,揭示文献的内容,使检索速度更快,检索结果命中率更准、更全。
基于知识库管理系统的关键词管理。检索进程显示功能。检索式显示功能。词表辅助检索。检索策略辅助功能。检索结果优化功能。网络化链接检索。结果处理、显示和保存功能。 3.3类型需要多样化
根据数据库或网站服务的不同用户群体,要进行用户群体分类和用户使用特征偏好的分析总结,建立不同类型的集成检索平台。目前我国图书馆网站服务的群体多数为高校老师学生,科研人员等具备一定知识水平的人员,随着公共图书图书馆的发展和图书馆职能的延伸,服务群体的扩大,不同知识水平的人员对图书馆资源都存在一定的需求,要根据读者种类设计不同类型的集成检索平台。
3.4用户中心理念
跨库检索的设计应该突出"以用户为中心"的理念,设计的过程应该在不断的改进,在迭代中使系统的功能得到完善。数据库的选择范围要恰当在实际跨库检索系统构建过程中,应通过市场调研,选择市场占有率较大的数据库进行跨库检索系统的开发,而不应针对所有的数据库进行盲目的跨库检索系统开发。
3.5注重智能化个性化
跨库检索系统应紧跟信息检索的发展趋势,注重个性化、智能化服务的提供。个性化主要是指检索内容的特色化和检索个性化的服务。智能化检索是基于自然语言的检索形式,机器根据用户所提供的自然语言表述的检索要求进行分析,而后形成检索策略并进行检索,用户所需要做的只是告诉机器想做什么,至于怎样做则无需人工干预,智能化有待于人工智能(AI)的发展。
3.6加强国内跨库检索理论与技术的研究
国外跨库检索的理论与技术相对比较成熟,我们可以借鉴。但是,国外的产品要解决国内数据库的兼容问题,有一定的难度,而且国外产品价格相对较高。因此,要在借鉴国外技术的基础上,加强国内集成检索系统的研究开发。
参考文献:
[1]张云秋.国内外跨库检索系统功能的比较研究.图书情报工作,2006(50)
[2]尹达.跨库检索系统检索效率影响因素辨析.科技情报开发与经济,2007(17)
[3]李晓莹.图书馆异构数据库检索系统功能分析.情报杂志,2007(2)
[4]胡 娟.数据库统一检索平台的功能比较.现代情报,2005(4)
[5]陈定权,刘 胜.印本图书与电子图书的集成检索.图书馆杂志,2008(12)国内外
[6]王效岳,王志玲.异构数据库统一检索系统的比较研究.情报检索,2005(12)
[7]李广建,张智雄.国外跨库检索系统研究项目及其特点.在国外,2004(27)
作者简介:王旭, 1986年生,男,山东烟台人,湘潭大学在读硕士研究生。
关键词:信息检索 集成检索 跨库检索 现状分析
引言
随着计算机存储技术和网络技术的发展,通过网络来提供数据库的查询检索成为图书馆重要的服务方式,图书馆购买和自建数据库数量和种类也日益增多。图书馆因电子信息资源便于传递和共享的特性普遍重视数据库的建设开发和利用。然而各数据库在数据结构、检索机制、检索操作以及图书馆系统软硬件支持条件等方面存在差异,在资源范围方面交叉重复, 使得用户检索负担过重。如何从用户角度一站式的检索多个不同类型的数据库资源,成为图书馆面临的主要问题之一,跨库检索系统就是为解。
1问题定义
跨数据库检索是数字图书馆的重要组成部分,它主要实现分布异构数据库的检索。跨数据库检索也称集成检索,联邦检索,分布式检索等。是以多个分布式异构数据源为对象的检索系统。这种系统向用户提供统一的检索接口,将用户的检索要求转化为不同数据源的检索表达式,并发地检索本地的和广域网上的多个分布式异构数据源,实现对不同数据库、不同数据源的查询,并对检索结果加以整合,在经过去重和排序等操作后,以统一的格式将结果呈现给用户。避免用户在各类检索工具之间进行切换,系统全面、准确、快捷地实现对众多数据库的同时查询,并且可以对检索到的资源进行有效的管理(集成管理)。
提供统一的检索接口,能够减轻用户学习检索不同数据源的负担;并发检索,能节省用户总的检索时间;结果整合,呈现给用户的最终结果格式统一,方便用户的浏览和选择。
2国内图书馆集成检索现状
图书馆建设中都将跨库检索作为一项重要的内容加以考虑,国内很多大中型图书馆都自建或购买了跨库检索系统但大多数系统还处在不断的调试和完善当中,国内跨库检索系统的建设,起步较晚,尚需要根据用户群的需求特征,借鉴其他系统的成功之处,不断完善。
通过对具有代表意义的图书馆集成检索系统在实现方式,功能特性,检索效率,特点等方面进行分析。发现系统的功能,特征不一而足,说明在这一领域的研发工作还处于探索阶段,仍有许多问题值得探讨。
2.1数字图书馆集成检索平台
2.1.1清华同方的USP检索平台跨库检索系统
"清华同方分布异构跨平台跨库智能检索系统"(USP Union Search Platform)平台通过Web访问的方式将其它网络数据库集成到总库平台,是网络数据库接入的一种(此外还有ODBC、OAI、Z29.50、OPENURL接入等)可以方便地管理本单位数字资源。通过统一用户界面帮助用户在多个网络数据库搜索平台中实现信息检索操作,是对分布于网络中的多种检索工具的智能化整合。
2.1.2中国知网(CNKI)跨库检索系统
该系统整合了中外文40多个数据库及超星和书生两种电子书,是全面支持知识信息资源建设、共享、增值应用、增值服务、运营管理以及网络出版的数字图书馆系统软件平台。是各大图书馆、情报所、教育城域网中心以及各大单位信息中心建立具备全球知识资源共享、个性化知识服务及网络出版功能的数字图书馆、学习中心必不可少的基础平台
2.2公共图书馆网站集成检索
国家图书馆的集成检索,采用同一个检索入口,是与各个资源检索相连接的,检索前需要预先选定资源的类型,每次只能选中一种,从集成检索的效果来看,并未整合各类型的资源,返回结果也不统一。
虽然设置了统一检索入口,降低了用户使用不同数据和检索方式在检索语言和条件方面的难度,但是在多数据库资源检索和多种类型资源检索方面并没有太多优势。
2.3大学图书馆网站集成检索系统
最具代表性的是清华大学图书馆跨库检索系统,依靠易搜平台进行资源的整合。同方易搜是CNKI采用先进的异构资源整合技术,是面向图书馆整合资源与服务的应用平台,是图书馆提供知识服务的新一代门户。具有统一导航、统一认证、统一检索、统一浏览、链接整合、统一维护、使用统计、资源建设、开放平台等功能。支持本地元数据仓储和分布异构资源两种资源整合技术路线,能整合90%以上常见资源,包括WEB资源、OPAC资源、Z3950资源、数据库资源、开放存取资源、纸质资源等。
其他高校图书馆网站集成检索系统平台建设的现状不一而足,有的已经推出了比较优秀的集成检索平台,有的还处于初级以及在建阶段,很多还是停留在传统的馆内书目查询,单个数据库的资源检索,没有进行整合和统一,在读者查询各类资源方面没有提供高效的方式。
3我国集成检索系统的主要问题及建议
3.1建立数据库源的统一规则和标准
目前我国集成检索数据库源的类型不同,建设的标准不统一,多数的搜索引擎都不能很好地实现对数据库的检索,多数数据库仍需通过特定的数据库接口以特定的方式进行检索。因此,如果没有相对统一的数据库建设标准和接口,那么开发数据库接口、建立索引库、实现不同数据间的格式转换等跨库检索系统的的构建工作将会不停地重复进行,既加重了系统开发的投资,又增加用户利用数据库的成本。
3.2完善检索功能和其他功能
跨数据库检索系统的基本功能包括简单检索、高级检索、专业检索、分类检索和期刊导航等。数据库的结构不同,供检索的字段不同,因此,同时检索多个数据库时,应该尽最大可能提供更多的检索点,揭示文献的内容,使检索速度更快,检索结果命中率更准、更全。
基于知识库管理系统的关键词管理。检索进程显示功能。检索式显示功能。词表辅助检索。检索策略辅助功能。检索结果优化功能。网络化链接检索。结果处理、显示和保存功能。 3.3类型需要多样化
根据数据库或网站服务的不同用户群体,要进行用户群体分类和用户使用特征偏好的分析总结,建立不同类型的集成检索平台。目前我国图书馆网站服务的群体多数为高校老师学生,科研人员等具备一定知识水平的人员,随着公共图书图书馆的发展和图书馆职能的延伸,服务群体的扩大,不同知识水平的人员对图书馆资源都存在一定的需求,要根据读者种类设计不同类型的集成检索平台。
3.4用户中心理念
跨库检索的设计应该突出"以用户为中心"的理念,设计的过程应该在不断的改进,在迭代中使系统的功能得到完善。数据库的选择范围要恰当在实际跨库检索系统构建过程中,应通过市场调研,选择市场占有率较大的数据库进行跨库检索系统的开发,而不应针对所有的数据库进行盲目的跨库检索系统开发。
3.5注重智能化个性化
跨库检索系统应紧跟信息检索的发展趋势,注重个性化、智能化服务的提供。个性化主要是指检索内容的特色化和检索个性化的服务。智能化检索是基于自然语言的检索形式,机器根据用户所提供的自然语言表述的检索要求进行分析,而后形成检索策略并进行检索,用户所需要做的只是告诉机器想做什么,至于怎样做则无需人工干预,智能化有待于人工智能(AI)的发展。
3.6加强国内跨库检索理论与技术的研究
国外跨库检索的理论与技术相对比较成熟,我们可以借鉴。但是,国外的产品要解决国内数据库的兼容问题,有一定的难度,而且国外产品价格相对较高。因此,要在借鉴国外技术的基础上,加强国内集成检索系统的研究开发。
参考文献:
[1]张云秋.国内外跨库检索系统功能的比较研究.图书情报工作,2006(50)
[2]尹达.跨库检索系统检索效率影响因素辨析.科技情报开发与经济,2007(17)
[3]李晓莹.图书馆异构数据库检索系统功能分析.情报杂志,2007(2)
[4]胡 娟.数据库统一检索平台的功能比较.现代情报,2005(4)
[5]陈定权,刘 胜.印本图书与电子图书的集成检索.图书馆杂志,2008(12)国内外
[6]王效岳,王志玲.异构数据库统一检索系统的比较研究.情报检索,2005(12)
[7]李广建,张智雄.国外跨库检索系统研究项目及其特点.在国外,2004(27)
作者简介:王旭, 1986年生,男,山东烟台人,湘潭大学在读硕士研究生。