论文部分内容阅读
Internet是全球最大而且还在迅速增长的信息资源库,有效地组织和开发Internet信息资源,促进Internet信息资源的利用,对于文献情报机构有着重要的意义。本文将“门户网站”的概念引入文献情报领域,提出了开发“Internet科技信息资源门户网站(简称科技信息门户,Science&Technology InformationPortal,STIP)”的构想,并利用门户网站这种信息搜索、加工、组织和服务的新模式,来推动文献情报机构参与Internet上科技信息资源的开发利用,拓展和增强文献情报机构的服务功能。 在研究和分析了Internet上的数据标记技术、搜索引擎技术、自动文摘及自动分类技术、信息检索技术、以及信息发布技术的基础之上,结合中国科学院知识创新工程的需要,按照软件工程的原理,设计了针对科学技术领域的垂直门户网站系统:STIP。该研究项目已完成了其中几个主要子系统:(1)实现了集Web页面搜索、内容分析和metadata抽取三个功能于一体的网络机器人:STRobot;(2)开发了辅助人工进行Internet信息收集的工具:STBrowser;(3)开发了面向Internet用户的Web信息服务网站:STPortal,通过它提供信息检索、信息导航、专题报导、科技新闻、个性化服务、科技论坛、点击排行、网站提交等服务;(4)借助镜像工具,开发了镜像系统:STMirror,并通过Web提供全文检索服务。 在系统的设计和实践过程中,该论文对一些领域作了创新性尝试,如:将系统建构在先进的Microsoft数字神经结构之上,充分利用其组件技术来开发STIP系统:利用Java技术,研制了多线程搜索算法和精悍的内容分析器;利用数据库系统的特性,开发了逻辑组配检索、加权检索和自然语言检索等多种检索方式;充分利用了“推送”技术,实现了真正的个性化动态频道推送服务。经过此课题的研究,初步形成了一套创建垂直门户网站系统的解决方案,拥有了一批自主版权的,可用于搜集、加工、整理、和发布Internet信息资源的核心技术,为中科院文献情报系统参与Internet信息资源的开发,打下了良好的基础。