论文部分内容阅读
随着互联网中信息量的快速增长,以及越来越多的更加清晰化的数据分类,通用的搜索引擎并不能很好地为不同专业、背景的用户找到他们需要的信息。因此需要一种能够针对某个特定领域的、专业的搜索引擎。垂直搜索引擎通过锁定某一特定的领域、人群或需求,向用户提供高度目标化、专业化的查询内容,从而提高检索结果的准确性。但是,垂直搜索引擎和传统的全文搜索引擎存在很多类似的问题:查全率较低、网络资源消耗过高等。据统计,在全网范围内,有相当大的一部分网页是无法直接被搜索引擎索引,即使是全世界最大的搜索引擎谷歌也只能索引到整个互联网网页的30-40%。对此,本文的解决方法是将垂直搜索引擎的具体结构建立在元搜索之上,借助元搜索的多来源的信息数据,提高系统检索结果的查全率。关于垂直搜索的研究十分广泛,各行各业也出现了很多面向行业内部的垂直搜索工具,但是这些垂直搜索工具并不具有可复制性,彼此之间相互独立,可重用性并不高,缺乏一个通用的支持可快速构建新型领域的垂直搜索系统的系统架构。本文的主要工作是基于元搜索技术,给出了一个通用垂直搜索系统的框架模型,从而支持快速构建新型领域的垂直搜索系统,并以学术领域为例,实现了一个学术元搜索工具。文章的核心贡献主要有以下三个方面:1.通过对多个面向不同领域的垂直搜索系统框架的分析,给出了一种通用垂直搜索系统的框架模型。同时,结合元搜索的系统结构和Holon的相关模型设计,对提出的通用垂直搜索系统框架进行优化,设计了一个基于Holon的、通用的垂直搜索系统框架模型,支持新型领域内的垂直搜索系统的快速构建;2.通过面向学术领域的系统目标分析,结合本文给出的通用垂直搜索系统框架模型,设计了面向学术领域的基于多Agent的垂直搜索系统的框架,并快速实例化了一个学术搜索工具(IM Scholar Search);3.通过对学术搜索工具的实验部署和案例说明,一方面用于验证本文设计的通用垂直搜索系统框架模型设计的有效性,另一方面则主要用于验证本文在基于设计的通用架构下,实现的学术元搜索工具的可用性,并确保可以满足学术检索用户的一般需求特征。通过实验的验证,本文的学术元搜索工具基本满足了查询用户的一般需求,这既说明了文中实现的工具的可用性,同时也验证了本文提出的框架对于新领域垂直系统的支持,验证了文中提出的框架在设计上的有效性。