基于Agent的中文多元搜索引擎的研究和开发

论文部分内容阅读

自从WWW1991年诞生以来，已经发展成为拥有近亿用户和约400万站点，8亿页面的巨大分布式信息空间，而且其信息容量仍在以指数形式飞速增长。面对如此众多的Web服务器与其上面丰富的Web信息资源，如何有效快捷地进行Web信息获取变的越来越重要。本文结合所承担的国家“九五”重点科技攻关计划（96-743-01-01-05）专题“网络信息获取前后服务处理技术”和“金桥”工程项目的“ Web信息获取系统”开发任务，采用Agent技术，对多元搜索引擎技术进行了研究。论文的主要工作包括以下几个方面：（1）分析研究了当前Internet上信息的特点以及搜索引擎技术的发展趋势，对目录式搜索引擎、机器人搜索引擎、多元搜索引擎等搜索引擎的工作原理做了综述，并根据搜索引擎评价指标，分析了现有搜索引擎的优势与不足。（2）引入了人工智能中Agent的概念，并对Agent进行了明确的定义，进而对Agent的组成、功能和基本结构进行了研究，在Agent基础上对多Agent协作系统的特点、分类和交互进行了研究。（3）设计并实现了一个基于多Agent协作系统（MAS）的多元搜索引擎WebHunter的原型系统。该系统的基本构成单位是Agent，主要由信息前处理层、查询代理层和信息后处理层组成。（4）详细分析了每个搜索引擎的查询语法，尽可能地抽取大多数搜索引擎共同支持的语法格式，采用SOIF（Summary Object Interchange Format）规范，形成了WebHunter的语法规范。（5）提出了一种通过多代理协作对多元搜索引擎中所含有的搜索引擎进行选择的方法，通过多个Agent的协同工作，并配以信息库的支持，可以使多元搜索引擎在对查询结果质量影响较小的基础上，避免对其中的全部搜索引擎都发出查询请求，从而达到减小资源消耗的目的。（6）采用并行工作的搜索引擎代理完成与选定搜索引擎的交互，缩短了系统的响应时间。（7）描述了现有系统的查询结果排列算法，并在此基础上，提出了一种简单、有效的对相关度进行归一化的排序算法，从而提高了系统的查询效率。

与本文相关的学术论文