论文部分内容阅读
在Internet上信息呈爆炸式增长的背景下,Web资源显示出强大的动态不稳定性,因此产生了主题用户的资源迷向问题.该文以主题搜索引擎和元搜索引擎技术为基础,构建出面向主题Web信息博物馆,来满足主题用户的需求.我们在需求的前提下,从功能的角度出发,建立了以收藏和展示Web信息为目的的面向主题的Web信息博物馆.在构建立面向主题的Web信息博物馆时,充分借鉴了实物主题博物馆的基本功能和组建模式,确立了以搜集、整理、保存、展示主题Web信息为基本功能的面向主题的Web信息博物馆.该文首次提出并明确界定了主题Web信息博物馆的研究对象及相关概念.这里把主题Web信息博物馆定义为"分布式计算机网络环境中的信息资源库,是利用搜索引擎技术和计算机网络,收集、存储、发布Web资源的博物馆".它与目前研究的主题数字图书馆的区别在于主题数字图书馆面对的对象是文本、图像、音频和视频等信息,面向主题的Web信息博物馆是对主题数字图书馆在存储对象方面的补充,它是对Internet上的Web信息收藏和展示.论文首先阐述了面向主题的Web信息博物馆构建过程中的几个关键问题:主题信息的采集、Web信息的标准化、信息的分类整理、信息的索引存储、信息的发布.然后在此基础上描述了面向主题的Web信息博物馆的功能组成,并给出了一个通用主题信息博物馆的整体构架和体系结构.对建立面向主题的Web信息博物馆涉及到的几个关键问题都给出了解决详细的解决方案:主题搜索引擎技术、元数据标准标准化、网页分类技术、数据库技术,标准化发布方案.构建面向主题的Web信息博物馆的核心问题——主题信息的收藏,该文进行了重点解决:设计和改进了几个主题信息采集的算法,给出一种全新的采集流程,即基于元搜索引擎的主题信息采集过程.论文中系统的构建及方案均以敦煌学主题为样本进行展开研究,研究中充分采用了软件复用的思想,希望能以此系统为模板,为其他主题的Web信息博物馆构建提供一个模板和借鉴,即在定义相关的主题域后,便可复用该文提出的体系结构、解决方案、组织过程等.