论文部分内容阅读
随着因特网的快速发展,Web上的信息量越来越大,为了帮助人们从海量的信息资源中查找到自己所需要的信息,搜索引擎应运而生并且得到了迅速发展。然而,人们对信息专业化和精细化程度的不断提高,传统的搜索引擎已经不能很好的满足人们的需求,面向专业领域的垂直搜索却越来越受到人们的青睐。垂直搜索是对网页库中的某类专门的信息进行一次整合,定向分字段抽取出需要的数据进行处理后再以某种形式返回给用户,是搜索引擎的细分和延伸。在信息检索中,用户输入的查询关键词不能准确的描述用户复杂的查询请求,因此基于关键词的机械的字符匹配方式将可能会导致一些与用户查询相关的文档不能被成功地检索出来,这是影响检索性能的一个关键问题。查询扩展可以在一定程度上解决这种词的不匹配现象,本文在上述研究的基础上,通过对已有查询扩展方法的分析,提出了一种基于本体的查询扩展策略并对其展开研究。本文主要内容如下:(1)研究并分析了传统的基于链接的分析技术(PageRank算法、HITS算法及HillTop算法)的原理和不足,并针对垂直搜索的特点提出了面向垂直搜索的v-PageRank算法来对查询返回结果进行排序,且实验验证了新算法的改进优于原有算法。(2)通过对基于关键词查询局限性和查询扩展方法的分析,提出了一种基于本体的查询扩展策略,该策略考虑了查询关键词与本体中概念匹配的三种不同情况,并构建了手机领域本体。(3)本文结合手机领域本体,设计了一个基于查询扩展的垂直搜索引擎的原型系统,并对其进行了实验验证,实验证明该搜索引擎比传统的搜索引擎具有更好的查全率和查准率。