论文部分内容阅读
本文以主题搜索引擎和元搜索引擎技术为背景,研究了基于Web的主题信息采集系统(聚焦爬行系统)的几个问题:首先,研究了Web主题词典的建立问题,提出一种自动动态建立Web主题词典的方法;其次,针对主题信息采集策略问题,提出了一种基于元搜索引擎的改进的SH(SimpleHeuristics简单启发)算法,该改进的算法比原算法更适应于中文环境。同时,由于它是基于元搜索引擎的,根集合的形成不需要耗费太多的资源,并且可以实现用户实时动态的查询请求;第三,在采集系统结构方面,采用了非递归的爬行器结构,且各个功能分别通过松耦合关系的不同类组来实现,使得该系统的可扩展性良好;最后,以敦煌学*主题为样本设计和实现了一个基于Web的主题信息采集系统,并对该系统的采集效果进行了比较分析,证明该系统采用的主题搜索策略良好,可以较好地解决主题用户“资源迷向”的问题。