论文部分内容阅读
自人类进入二十一世纪以来,互联网产生了规模巨大的各类数据,且数据量仍在不断激增。搜索引擎可以帮助人们高效地从错综复杂的海量数据中获取到需要的信息。但是,单个搜索引擎往往查全率不高,不能完全满足用户的检索需求,而元搜索引擎通过整合各个成员搜索引擎返回的搜索结果,从而为用户提供覆盖率更高的检索结果。然而,在元搜索引擎中,用户输入的初始查询有时并不能准确表达其查询意图,从而影响检索结果的准确率。因此亟需研究面向元搜索引擎的查询推荐技术,以提高元搜索引擎的用户体验。查询推荐技术通过将相关的查询词推荐给用户,以帮助用户构造更有效的查询。传统的查询推荐模型可以分为两大类,分别是基于日志的查询推荐模型和基于语料的查询推荐模型。本文对比分析了这两类模型的优缺点,在“智搜”元搜索引擎系统的基础上,提出并实现了一个基于日志和语料的查询推荐模型。本文的工作内容及结论如下:(1)本文首先使用查询日志数据构建查询-链接二部图,在该图上使用两步随机游走策略来找到候选查询推荐词集。为了进一步扩充候选词集的范围,发挥元搜索引擎的优势,利用多个搜索引擎的查询推荐结果来丰富候选查询推荐词集。接下来,使用主题概念提取的方法,从元搜索引擎检索结果中提取查询词相关的主题概念,筛选出与主题概念相关的候选查询推荐词集。(2)为了进一步提高候选查询词的准确性,本文使用基于语料数据的查询项图相似性计算方法筛选得到最终的候选查询推荐词集。除此以外,本文还提出了一个查询词合理性的计算方法,对候选查询词集进行最终的排序。(3)本文提出的基于日志和语料的查询推荐模型已在“智搜”元搜索引擎中实现并应用,实验结果表明该推荐模型可以更加准确的为用户提供查询推荐词,且该模型的各个步骤均可以有效提高查询推荐的性能。