论文部分内容阅读
[摘要]本文对信息存储技术和信息检索等关键技术进行了分类分析,并讨论了这些技术在科技信息资源建设中的应用和发展趋势,为科技信息化建设提供借鉴。
[关键词]信息存储;信息检索;科技信息化
科技创新的第一要素是知识资源,科技创新的基础是知识的积累、传播、运用和创新。作为浙江省最大的综合性科技信息研究机构,浙江省科技信息研究院在传统基础性的服务层次上,将立足点转移到充分利用和开发信息资源上,利用科技信息资源优势,主动为用户提供服务,创造有利于社会发展的经济价值和社会效益,进而实现“信息服务”向“知识服务”的转变。要实现这种转变,关键在于打造一个好的科技信息资源共享平台,利用信息存储技术和信息检索技术等关键技术管理海量数据,使用户能够快速地获得有用的知识。
1 信息存储技术
数据是信息的符号,已经成为科技网络中心最宝贵的财富资源。在很多情况下,数据要比计算机系统设备本身的价值高得多,因此,运用先进的信息存储技术,提升信息存储系统的高可靠性、高可用性以及数据灾难恢复能力,是现在科技网络中心必须考虑的首要问题。
1.1 信息存储的技术走势
(1)存储虚拟化技术
随着计算机内信息量的不断增加,以往直连式的本地存储系统已无法满足业务数据的海量增长,搭建共享的存储架构,实现数据的统 存储、管理和应用已经成为一个行业的发展趋势,而虚拟存储技术正逐步成为共享存储管理的主流技术。存储虚拟化技术将不同接口协议的物理存储设备整合成个虚拟存储池,根据需要为主机创建并提供等效于本地逻辑设备的虚拟存储卷。
使用虚拟存储技术可以实现存储管理的自动化与智能化:在虚拟存储环境下,所有的存储资源在逻辑上被映射为一个整体,对用户来说是单一视图的透明存储,科技网络中心系统管理员只须专注于管理存储空间本身,所有的存储管理操作,如系统升级、改变RAID级别、初始化逻辑卷、建立和分配虚拟磁盘、存储空间扩容等常用操作都比从前更加容易。
使用虚拟存储技术可以极大地提高存储使用率 以前困扰科技网络中心的最大问题就是物理存储设备的使用效率不高,以传统磁盘存储为例,一些主机的磁盘容量利用率不高。而一些主机空间却经常不足,致使客户不得不购买超过实际数据量较多的磁盘空间,从而造成存储空间资源的浪费。虚拟化存储技术解决了这种存储空间使用上的浪费,把系统中各个分散的存储空间整合起来,按需分配磁盘空间,客户几乎可以100%地使用磁盘容量,从而极大地提高了存储资源的利用率。
使用虚拟存储技术可以减少存储成本:由于历史的原因,科技网络中心不得不面对各种各样的异构环境,包括不同操作系统、不同硬件环境的主机,采用存储虚拟化技术,支持物理磁盘空间动态扩展,而无需新增磁盘阵列,从而降低了用户总体拥有成本,增加了用户的投资回报率。
(2)分级存储技术
对于大多数科技文献来说,对文献“引用”的次数在其生命周期内会随着时间的推移而显著下降。基于这一基本的观察推论,我们可以把相对不“活跃”的文献迁移到成本较低的存储级别,从而使存储管理更具成本效益。
分级存储管理(HSM)技术,就是系统根据数据的重要性、访问频次等指标分别存储在不同性能的存储设备上,采取不同的存储方式,实时监控数据的使用频率,并且自动地把长期闲置的数据块迁移到低性能的磁盘上,把活跃的数据块放在高性能的磁盘上。
(3)数据保护技术
数据保护系统的建设是一个循序渐进的过程,在进行了本地备份系统建设之后,建立一套可靠的远程容灾系统。当灾难发生后,通过备份的数据完整、快速、简捷、可靠地恢复原有系统,以避免因灾难对业务系统的损害。
1.2 信息存储技术的应用
浙江省科技网络中心面向科技信息系统内部及社会提供多种关键性应用,如用上技术市场、农村网、科技文献共建共享网、数字图书馆、知识产权网、电子政务和实验动物信息网等。随着应用层面不断深入,数据总量激增,浙江省科技网络中心数据量已达10TB级,而且每年以超过50%的速度增长,海量的数据对存储技术提出了更高的要求。通过近几年的信息化建设,信息存储技术在浙江省科技网络中心得到了充分的应用。
(1)浙江省科技网络中心建立了集中存储、集中管理的存储局域网(SAN)。
(2)采用光纤磁盘阵列作为集中的存储介质,光纤磁盘阵列采用光纤硬盘和SATA硬盘混插的方式,利用分级存储技术,将访问频率较高的数据或者较新的数据存放在速度更快的光纤硬盘中,而将一些历史数据存放在SATA硬盘中,以实现存储设备最大化效益。
(3)由于实现了数据的统一管理,在维护、管理方面也相当方便,大大减轻了维护人员的工作强度。
(4)浙江省科技网络中心建立了集中管理的无人值守自动化数据备份系统,采取灵活制定备份和恢复策略,实现集中化的备份策略管理及备份任务监督。
(5)建立了一套完整的数据存储备份管理制度,每日记录系统日志,定期清洗磁带机,定期进行存储数据量统计,定期进行恢复测试演练。
(6)据不完全统计,存储系统实施后,用户的访问速度提升了数倍,网页访问平均等待时间减少了80%。
2 信息检索技术
2.1 信息检索的技术走势
(1)相似性检索技术
随着使用文献检索用户群的扩大,传统的全文检索技术基于关键词匹配进行检索,往往存在查不全、查不准、检索质量下高的现象,特别是在网络信息时代,利用关键词匹配方式很难满足人们检索的要求。智能检索利用分词词典、同义词典、同音词典,改善了检索效果,进一步在知识层面或者说概念层面上辅助查询,通过主题词典、上下位词典、相关同级词典形成个知识体系或概念网络,给予用户智能知识提示,最终帮助用户获得最佳的检索效果。
(2)自动摘要生成技术
自动摘要生成技术可以针对中文文档摘取出重要的句子,产生属于该文档的摘要。应用这个技术,用户可以快速从多篇文章中,挑出重要的或感兴趣的文章阅读,并可动态地决定生成摘要的大小及其内容,同时可针对多篇文章产生一份摘要。
(3)自动过滤技术
信息过滤系统的主要功能是有效地识别和过滤各种有害文本信息,帮助用户摆脱有害信息的侵扰。可应用于互联网络信息过滤、垃圾邮件过滤、不良信息过滤等内容安全领域。
(4)异构信息整合检索技术
在信息检索日趋分布化和网 络化的形势下,用户对信息检索系统的开放性和集成性要求越来越高,希望能够检索和整合不同来源与结构的信息。这是异构信息检索技术发展的基点,包括支持各种格式化文件,如TXT、HTML、XML、RTF、MS Office、PDF等文件类型的处理和检索,支持多语种信息的检索,支持结构化数据、半结构化数据及非结构化数据的统一处理:关系数据库检索的无缝集成以及其他开放检索接口的集成等。
(5)多语种检索技术
过去对新项目、重点项目的选择不大注意查新,导致重复研究,造成人力、物力、财力的严重浪费。科技信息检索系统必须能够支持多语种检索,从人类译者的角度来考虑,具备源语言、目标语言、相关主题、文化习惯等方面的知识。
2.2 信息检索技术的应用
浙江省科技文献共建共享平台(www.kjwx.zj.cn)汇集了浙江省科技信息研究院、浙江省图书馆等9家浙江省內主要科研、图书文献机构,整合了科技文献信息资源,提高了成员单位文献资源和特色资源的利用率,系统平台充分利用信息检索技术,提供全方位、一站式、信息化的科技文献服务,实现科技文献的检索、订购和传递,文献满足率可以达到95%以上。主要包括:特色数据库服务,为用户提供各成员单位的特色数据资源检索及原始文献提供等服务;个性化检索服务,包括SDI定题服务、个人图书馆等,系统建立用户兴趣库,可根据用户的检索习惯,推測用户的检索意图,提供满足客户需求的科技信息资源;委托检索服务,通过委托检索请求,实现国内国外的文献检索;订阅服务,根据用户的访问特征,检索相应的文献资料,定期传送给相应的用户。
3 结语
随着因特网的普及,科技信息服务的用户群体也不断扩大,用户对知识信息的需求无论在广度上还是深度上都发生了质的变化。这种需求变化需要更多样化的内容、更智能化的检索、更人性化的服务。满足科技信息用户日益增长的需求,已经成为各级IT建设部门的主要工作任务,而信息存储和信息检索技术的应用已成为IT建设中必须研究的课题。本文简要探讨了信息存储和信息检索相关技术及在科技信息服务中的应用。从长远来看,信息存储和检索技术是一个不断发展的技术,必将以不断出现的新技术和新应用持续满足用户的需求。
[关键词]信息存储;信息检索;科技信息化
科技创新的第一要素是知识资源,科技创新的基础是知识的积累、传播、运用和创新。作为浙江省最大的综合性科技信息研究机构,浙江省科技信息研究院在传统基础性的服务层次上,将立足点转移到充分利用和开发信息资源上,利用科技信息资源优势,主动为用户提供服务,创造有利于社会发展的经济价值和社会效益,进而实现“信息服务”向“知识服务”的转变。要实现这种转变,关键在于打造一个好的科技信息资源共享平台,利用信息存储技术和信息检索技术等关键技术管理海量数据,使用户能够快速地获得有用的知识。
1 信息存储技术
数据是信息的符号,已经成为科技网络中心最宝贵的财富资源。在很多情况下,数据要比计算机系统设备本身的价值高得多,因此,运用先进的信息存储技术,提升信息存储系统的高可靠性、高可用性以及数据灾难恢复能力,是现在科技网络中心必须考虑的首要问题。
1.1 信息存储的技术走势
(1)存储虚拟化技术
随着计算机内信息量的不断增加,以往直连式的本地存储系统已无法满足业务数据的海量增长,搭建共享的存储架构,实现数据的统 存储、管理和应用已经成为一个行业的发展趋势,而虚拟存储技术正逐步成为共享存储管理的主流技术。存储虚拟化技术将不同接口协议的物理存储设备整合成个虚拟存储池,根据需要为主机创建并提供等效于本地逻辑设备的虚拟存储卷。
使用虚拟存储技术可以实现存储管理的自动化与智能化:在虚拟存储环境下,所有的存储资源在逻辑上被映射为一个整体,对用户来说是单一视图的透明存储,科技网络中心系统管理员只须专注于管理存储空间本身,所有的存储管理操作,如系统升级、改变RAID级别、初始化逻辑卷、建立和分配虚拟磁盘、存储空间扩容等常用操作都比从前更加容易。
使用虚拟存储技术可以极大地提高存储使用率 以前困扰科技网络中心的最大问题就是物理存储设备的使用效率不高,以传统磁盘存储为例,一些主机的磁盘容量利用率不高。而一些主机空间却经常不足,致使客户不得不购买超过实际数据量较多的磁盘空间,从而造成存储空间资源的浪费。虚拟化存储技术解决了这种存储空间使用上的浪费,把系统中各个分散的存储空间整合起来,按需分配磁盘空间,客户几乎可以100%地使用磁盘容量,从而极大地提高了存储资源的利用率。
使用虚拟存储技术可以减少存储成本:由于历史的原因,科技网络中心不得不面对各种各样的异构环境,包括不同操作系统、不同硬件环境的主机,采用存储虚拟化技术,支持物理磁盘空间动态扩展,而无需新增磁盘阵列,从而降低了用户总体拥有成本,增加了用户的投资回报率。
(2)分级存储技术
对于大多数科技文献来说,对文献“引用”的次数在其生命周期内会随着时间的推移而显著下降。基于这一基本的观察推论,我们可以把相对不“活跃”的文献迁移到成本较低的存储级别,从而使存储管理更具成本效益。
分级存储管理(HSM)技术,就是系统根据数据的重要性、访问频次等指标分别存储在不同性能的存储设备上,采取不同的存储方式,实时监控数据的使用频率,并且自动地把长期闲置的数据块迁移到低性能的磁盘上,把活跃的数据块放在高性能的磁盘上。
(3)数据保护技术
数据保护系统的建设是一个循序渐进的过程,在进行了本地备份系统建设之后,建立一套可靠的远程容灾系统。当灾难发生后,通过备份的数据完整、快速、简捷、可靠地恢复原有系统,以避免因灾难对业务系统的损害。
1.2 信息存储技术的应用
浙江省科技网络中心面向科技信息系统内部及社会提供多种关键性应用,如用上技术市场、农村网、科技文献共建共享网、数字图书馆、知识产权网、电子政务和实验动物信息网等。随着应用层面不断深入,数据总量激增,浙江省科技网络中心数据量已达10TB级,而且每年以超过50%的速度增长,海量的数据对存储技术提出了更高的要求。通过近几年的信息化建设,信息存储技术在浙江省科技网络中心得到了充分的应用。
(1)浙江省科技网络中心建立了集中存储、集中管理的存储局域网(SAN)。
(2)采用光纤磁盘阵列作为集中的存储介质,光纤磁盘阵列采用光纤硬盘和SATA硬盘混插的方式,利用分级存储技术,将访问频率较高的数据或者较新的数据存放在速度更快的光纤硬盘中,而将一些历史数据存放在SATA硬盘中,以实现存储设备最大化效益。
(3)由于实现了数据的统一管理,在维护、管理方面也相当方便,大大减轻了维护人员的工作强度。
(4)浙江省科技网络中心建立了集中管理的无人值守自动化数据备份系统,采取灵活制定备份和恢复策略,实现集中化的备份策略管理及备份任务监督。
(5)建立了一套完整的数据存储备份管理制度,每日记录系统日志,定期清洗磁带机,定期进行存储数据量统计,定期进行恢复测试演练。
(6)据不完全统计,存储系统实施后,用户的访问速度提升了数倍,网页访问平均等待时间减少了80%。
2 信息检索技术
2.1 信息检索的技术走势
(1)相似性检索技术
随着使用文献检索用户群的扩大,传统的全文检索技术基于关键词匹配进行检索,往往存在查不全、查不准、检索质量下高的现象,特别是在网络信息时代,利用关键词匹配方式很难满足人们检索的要求。智能检索利用分词词典、同义词典、同音词典,改善了检索效果,进一步在知识层面或者说概念层面上辅助查询,通过主题词典、上下位词典、相关同级词典形成个知识体系或概念网络,给予用户智能知识提示,最终帮助用户获得最佳的检索效果。
(2)自动摘要生成技术
自动摘要生成技术可以针对中文文档摘取出重要的句子,产生属于该文档的摘要。应用这个技术,用户可以快速从多篇文章中,挑出重要的或感兴趣的文章阅读,并可动态地决定生成摘要的大小及其内容,同时可针对多篇文章产生一份摘要。
(3)自动过滤技术
信息过滤系统的主要功能是有效地识别和过滤各种有害文本信息,帮助用户摆脱有害信息的侵扰。可应用于互联网络信息过滤、垃圾邮件过滤、不良信息过滤等内容安全领域。
(4)异构信息整合检索技术
在信息检索日趋分布化和网 络化的形势下,用户对信息检索系统的开放性和集成性要求越来越高,希望能够检索和整合不同来源与结构的信息。这是异构信息检索技术发展的基点,包括支持各种格式化文件,如TXT、HTML、XML、RTF、MS Office、PDF等文件类型的处理和检索,支持多语种信息的检索,支持结构化数据、半结构化数据及非结构化数据的统一处理:关系数据库检索的无缝集成以及其他开放检索接口的集成等。
(5)多语种检索技术
过去对新项目、重点项目的选择不大注意查新,导致重复研究,造成人力、物力、财力的严重浪费。科技信息检索系统必须能够支持多语种检索,从人类译者的角度来考虑,具备源语言、目标语言、相关主题、文化习惯等方面的知识。
2.2 信息检索技术的应用
浙江省科技文献共建共享平台(www.kjwx.zj.cn)汇集了浙江省科技信息研究院、浙江省图书馆等9家浙江省內主要科研、图书文献机构,整合了科技文献信息资源,提高了成员单位文献资源和特色资源的利用率,系统平台充分利用信息检索技术,提供全方位、一站式、信息化的科技文献服务,实现科技文献的检索、订购和传递,文献满足率可以达到95%以上。主要包括:特色数据库服务,为用户提供各成员单位的特色数据资源检索及原始文献提供等服务;个性化检索服务,包括SDI定题服务、个人图书馆等,系统建立用户兴趣库,可根据用户的检索习惯,推測用户的检索意图,提供满足客户需求的科技信息资源;委托检索服务,通过委托检索请求,实现国内国外的文献检索;订阅服务,根据用户的访问特征,检索相应的文献资料,定期传送给相应的用户。
3 结语
随着因特网的普及,科技信息服务的用户群体也不断扩大,用户对知识信息的需求无论在广度上还是深度上都发生了质的变化。这种需求变化需要更多样化的内容、更智能化的检索、更人性化的服务。满足科技信息用户日益增长的需求,已经成为各级IT建设部门的主要工作任务,而信息存储和信息检索技术的应用已成为IT建设中必须研究的课题。本文简要探讨了信息存储和信息检索相关技术及在科技信息服务中的应用。从长远来看,信息存储和检索技术是一个不断发展的技术,必将以不断出现的新技术和新应用持续满足用户的需求。