论文部分内容阅读
随着Web上资源的急剧膨胀,面对用户提供的有限查询词,当前的搜索引擎提供的千人一面的搜索已经难以满足用户对搜索结果的需求。在用户使用搜索引擎进行信息检索的过程中,依据用户的实际兴趣为用户返回个性化的搜索结果可以提高用户对搜索结果的满意度。大量研究表明用户的实际兴趣与其在网页上的浏览行为是密切相关的,通过用户浏览行为分析可以获取用户兴趣信息,进而构建用户兴趣模型,使搜索结果更加贴近用户的期望。然而,目前的隐式用户兴趣获取方法无法很好的预测出用户对页面的实际兴趣度。究其原因,一方面是由于当前研究尚未考虑到用户的浏览行为可能随搜索任务类型的不同而变化。另一方面,当前的用户兴趣获取方法多使用某种特定用户行为预测用户兴趣度。针对上述问题,本文探究用户浏览行为在不同类型的搜索任务中所表现出的差异,并研究联合分析多种用户浏览行为的隐式用户兴趣获取方法。在此基础上构建适当用户兴趣模型,最终得出用户的实际兴趣,从而实现个性化服务,使搜索结果更加贴近用户的期望。具体的,本文将任务类型分为导航型、信息型、事务型三种不同类型,将用户的基本浏览行为转换为页面停留时间时间、鼠标点击次数、页面重访问次数以及滑块移动次数四种可分析行为事件。通过Bernard提出的算法完成了任务类型的自动识别,分析了四种可分析行为事件在不同搜索任务类型中表现出的差异。在用户行为分析阶段,本文基于M5模型树对可分析事件建模完成对用户兴趣度的计算,在计算过程中树的剪枝和相关系数平滑是建模过程中必须考虑的问题。模型评价阶段,本文使用模型准确率评价指标将不区分任务类型和区分任务类型的模型与Nicholas Belkin的模型进行了对比。为了清晰有效的表达用户兴趣信息,本文提出了基于分类的用户兴趣模型,该模型涉及对文档的特征值提取,基于搜狗语料的SVM分类器对相关文档进行分类等技术。使用准确率和排序准确率两个指标将baidu搜索引擎和基于VSM的模型及基于分类的模型进行了对比。实验结果表明,本文提出的面向用户兴趣的用户行为分析模型可有效提高用户对搜索结果的满意度。