论文部分内容阅读
互联网孕育了庞大的信息海洋,在目前“互联网+”的概念引导下,专业领域形成了具有明确行业领域特性的信息网络以及精细化的检索需求。这种需求促使了垂直搜索引擎的迅速走红和发展。面向专业领域,具有专业信息检索优势的垂直搜索,主要通过在获取过程中提高信息的准确度和信息覆盖率、在搜索过程中提高信息反馈精准度来最终实现垂直领域高效的信息搜索。在垂直搜索引擎火热发展的同时,也暴露出了垂直过程中的一系列问题。即狭隘的垂直领域是指单一的、纵向的领域,一味强调纵向和忽略横向的搜索在强调主题内信息相关度聚集的同时却忽视了主题之间的相关性。本文对垂直搜索引擎的出现背景、发展现状进行了详细的阐述,针对垂直搜索引擎中的主题分类技术、个性化推荐技术进行了具体的研究。同时本文针对垂直搜索引擎在主题爬行过程中遇到的如何提高页面主题相关性判断能力以及如何提高主题爬虫穿越隧道的能力等方面的问题进行了研究,对Shark-Search算法在链接价值判断方面出现的短板问题进行了改进,加入PageRank的影响权重来进行爬行优先级的排序。此外本文还针对基于Shark-Search的主题爬行容易导致的信息孤岛问题,对Shark-Search算法进行了基于词向量的链接主题相似度算法的改进。由于页面的主题相关度判断依赖于大量的主题关键词形成的词库,本文提出了基于词频和协同出现概率的关键词扩展策略,以此解决了人工选择主题关键词时带来的繁琐等问题。为了在增强主题爬虫穿越隧道能力的同时,尽量减少资源的损耗,本文提出了一种近邻主题网络模型,用于描述主题间的相互影响关系和影响权重。通过近邻主题网络模型可以进一步指导主题爬虫的爬行过程,增加垂直搜索引擎的信息覆盖度。针对在垂直搜索引擎中的搜索推荐策略,本文对用户个性化垂直搜索策略进行了研究,包括基于协同过滤以及点击回馈的搜索推荐策略。针对Hilltop算法高度依赖专家页面的局限,本文还提出了在可选集有限情况下的页面排序方案。结合近邻主题网络模型,在主题内的搜索基础上,本文提供了近邻主题内的启发式搜索。这种搜索策略可以在一定程度上提高搜索的多样性和扩展性,对于用户的搜索路径提供了启发搜索的能力。最后本文根据研究内容,设计了以健康为中心主题的多元主题聚合的垂直搜索引擎原型,对基于词向量的主题爬行策略和近邻主题网络等机制进行了验证。