论文部分内容阅读
搜索引擎已经成为互联网最主要的访问入口之一,用户时常通过搜索引擎来寻找想要获得的信息。对搜索引擎来说,能否返回高质量的查询结果对于用户体验至关重要,为此搜索引擎公司会广泛收集用户的交互数据(如用户查询了哪些词,点击了哪些结果)。基于这些用户的隐式反馈信息,点击模型(click model)被广泛用于从中挖掘查询结果对于查询词的相关性信息。点击模型对用户的浏览和点击行为进行建模并对查询结果的相关性进行估计。已有的点击模型考虑了位置偏置、用户满意度等影响用户点击的因素。在本工作中,我们认为存在其他一些还没有被已有点击模型充分考虑在内,但是会对用户点击产生影响的因素。如用户相关的因素,查询词相关的因素,时间相关的因素等。本文将重点研究用户行为偏好因素,用户搜索专家程度因素和查询词类型因素对用户点击的影响,并且建立将这些因素考虑在内的点击模型。用户行为偏好因素:我们通过眼动实验对用户搜索时的检验行为进行分析,发现用户在检验深度上存在较大的差异,说明用户存在不同的检验偏好。此外,通过对真实搜索引擎用户点击日志的分析,我们发现用户在点击行为(点击位置,点击数量)上也体现出一定的差异,说明用户存在点击偏好。据此我们提出了一个考虑用户偏好的点击模型框架。在多个点击模型上的实验结果表明,在引入用户行为偏好因素后,模型的性能能够普遍得到显著的提升。用户搜索专家程度因素:点击通常被认为是用户对查询结果是否相关的判断。我们认为不同用户在判断一个文档的相关性时,做出正确判断的概率存在差异。我们提出搜索专家程度的概念,并假设其决定了用户能否正确的判断文档的相关性,进而对点击行为产生影响。基于这个假设,我们构建了考虑用户搜索专家程度的点击模型,真实数据上的实验结果表明,新的模型能够更好的对文档的相关性进行估计。查询词类型因素:我们通过眼动实验发现用户在不同类型查询词下的搜索行为存在很大差异,然而已有的点击模型并没有考虑查询词类型因素对用户点击的影响。在对用户的检验行为,点击行为和搜索专家程度受查询词类型的影响进行研究之后,我们提出了考虑查询词类型因素的点击模型框架。这个框架能够通过无监督的方法从查询词的点击特征与用户点击数据中学习出查询词的类型信息,并且对不同的查询词类型分别进行建模,由此提升点击模型的性能。此外,我们的无监督框架所估计出的各项参数与眼动实验中得到的结果有较高的一致性,这也从另一个方面验证了我们方法的有效性。