论文部分内容阅读
信息技术的飞速发展,导致了Intenet上的信息量不断膨胀,网络已经成为人们获得信息的必要途径和重要手段,尽管通用搜索引擎已经在某种程度上缓减了人们对Intenet信息获取的难度,但随着技术的发展和信息总量的增多,人们对于搜索引擎提出了更多的要求,主题资源搜索便是人们期望的目标之一。Web主题资源自动搜索技术可以充分利用Web上大量的免费资源,通过自动化的主题搜索过程,构建主题资源库,可以提高人们对于主题信息资源获取的效率与质量。
本文首先分析了搜索引擎的发展状况,阐述了搜索引擎各主要部分的工作原理,在此基础之上,探讨了主题搜索引擎的研究背景,分析了主题型Web搜索研究兴起的原因,及其潜在的研究价值,通过阅读文献,给出了一些比较有代表性的系统的描述。详尽地分析了主题搜索中的几个关键技术,包括主题概念定义、主题资源发现技术,主题爬行器的构造、主题爬行的启发策略及其算法实现,阐述了主题搜索的内涵与外延。
在分析主题搜索引擎页面爬行特点的基础之上,结合Agent技术的相关知识,提出了使用移动Agent进行主题信息收集的方法,分析了采用这种方法能带来的潜在的爬行效率的提升,尤其是网络带宽资源占用情况方面的改善,给出了一个基于移动Agent的主题搜索引擎系统原型,并描述了各个部分的主要功能,并对其中的几个关键部分给出了具体实现的方法,包括:主题特征的提取、移动Agent的系统框架、移动Agent的具体工作过程、主题页面的采集与内容解析和主题相关度的计算等。此外,作为主题搜索引擎的扩展,简述了用户自定义主题信息搜索的方法。
最后,在移动Agent平台——IBM aglets上设计并实现了一个基于移动Agent的主题信息爬行器。