论文部分内容阅读
随着互联网技术的飞速发展,Web站点和用户数量剧增,WWW已经发展成为包含着巨量信息资源和用户的复杂网络,起着为全世界人们实现信息传递和共享的作用。然而,海量的信息导致了‘‘信息过载”,使用户常常在信息的海洋中迷失方向,越来越难以高效地获取自己需要的特定信息。为此,近年来Web搜索越来越受到人们的重视,成为计算机领域基本的研究问题之一。其中,个性化Web搜索、社会化搜索、协同Web搜索是目前最受关注的几个主要问题。一般来说,用户搜索过程产生的搜索历史、个人收藏等是极其重要的经验信息。随着Web 2.0时代的到来,万维网上涌现出大量其他形式的用户搜索经验,如各类标签、投票、评论等等。若通过合理的方式感知、组织并利用它们,将有可能进一步帮助用户提高获取信息的能力。然而,一方面,由于专家级别的用户拥有一定的专业知识或较强的搜索技巧,往往能较快地找到满意的信息,产生的搜索经验质量很高,是最有价值的资源;另一方面,用户搜索经验作为一种经验信息,可借鉴案例推理(Case- Based Reasoning, CBR)的方法进一步处理。为此,本文作者基于案例推理,探索协同专家进行Web搜索过程中涉及的用户搜索经验的获取、表示、组织、利用以及异常数据处理等方面的问题。具体来说,主要完成以下工作:(1)在回顾目前Web搜索技术发展现状及遇到的问题后,总结和分析了目前协同Web搜索研究现状,指出了目前研究中存在的问题与不足,并总结了未来研究重点。在此基础上,第一,通过对传统Web搜索引擎的发展分析,概括出实现协同Web搜索的两种方式,即内嵌或外挂在传统搜索引擎上实现协同Web搜索;第二,通过分析领域知识对Web搜索的影响,指出可利用专家及其搜索经验进一步提高用户搜索体验,实现用户间的协同Web搜索,并以此为基本假设,提出基于CBR的协同专家搜索经验Web搜索模型,指出可能的实现方案与关键技术;第三,探索实现外挂式协同Web搜索的搜索引擎-浏览器插件-推荐引擎模式,介绍基于CBR的推荐系统体系结构。(2)用户搜索经验的获取、表示与组织是协同Web搜索的核心问题之在总结用户搜索经验类型的基础上,重点介绍基于模板的搜索引擎返回结果提取方法;在回顾案例表示方法的基础上,提出改进的基于查询和基于资源的用户搜索经验案例表示方法;关于用户搜索经验的组织问题,提出基于社区组织用户搜索经验的方法及多案例库组织方法。(3)探索用户搜索经验的利用问题。在讨论用户搜索经验的利用方式基础上,首先,探讨基于用户搜索经验的用户建模问题,介绍基于关键字权重的用户模型和基于语义关系的层次用户模型建立方法;其次,通过分析相关研究指出,可以采用主题过滤的方法识别专家及其搜索经验,并提出基于推荐频率和基于层次用户模型识别专家搜索经验的方法;最后,在总结检索和推荐专家搜索经验相关方法后,重点介绍本文作者研究实现的ExpertRec协同Web搜索原型系统采用的推荐策略和一种利用专家搜索经验优化网页排名的方法,并进行相关实验,证明基于层次用户模型识别的专家搜索经验有效,可以进一步提高用户搜索体验。(4)探讨用户搜索经验的异常检测问题。通过分析目前用户搜索经验异常数据处理中存在的问题,指出用户搜索经验收集和维护过程中产生或遇到的异常数据可采用实时异常检测的方法处理。为此,在介绍异常检测相关研究和特异性因子的基础上,为了满足实时异常检测的需要,提出了采样特异性因子(Sampled Peculiarity Factor, SPF)的概念,设计了基于SPF的异常检测算法,并进行实验。结果表明,采样特异性因子能代替其他特异性因子用于提高算法的性能,适合实时异常检测。而后,介绍了一种社区自动推荐方法和设计了一种基于SPF的搜索经验库在线维护方法。(5)原型系统。基于上述研究提出的相关模型、算法、方法等,本文作者实现了Whitesun内嵌式协同Web搜索原型系统和ExpertRec外挂式协同Web搜索原型系统,证明了相关模型和方法的正确性,为进一步探索协同Web搜索相关问题提供了参考。