论文部分内容阅读
随着网络技术的发展和互联网规模的扩大,互联网上的信息不断的增长,如何有效的检索这些海量信息成为Web信息检索领域的重要研究课题。在信息检索系统中,检索模型和检索系统的性能评测是最为重要的两个方面。检索模型关注为用户的查询结果列表进行相关度排序。影响检索模型排序质量的是采用的排序函数,通常采用监督学习或排序学习的方法,需要有大量的相关性数据来训练排序函数。对检索系统的评测也需要在人工标注的相关性数据集上运行排序函数对得到的结果进行评估。这两个方面都需要大量的相关性数据集。
传统的对相关性数据标注大都是由人工标注的,这种方式存在一些缺陷,比较耗费时间和人力,会受到规模的限制,数据时效性较差,而且由于标注者并不是真实的Web信息检索使用者,查询意图等背景会影响标注的准确度。因此,本文的目标是通过搜索引擎的用户查询日志来分析用户点击行为,并进行相关性数据自动标注。这种方法的优点是标注代价低,能获取大量的相关性数据集合。
本文的工作主要在两个方面:一是由于用户的点击有相关点击和不相关点击,需要对用户点击行为特征进行分析,这里以单个用户查询会话为对象研究用户点击行为特征的相关性,以用户的查询主题进行的Session划分粒度,按贝叶斯方法对点击行为特征进行相关性的量化度量;二是选择用户点击行为特征中相关性高的特征用贝叶斯点击模型来进行相关性自动标注,来自动提取训练数据,这里也考虑对未被点击的文档进行经验标注。
最后,本文通过实验,对用户查询会话背景中的点击行为特征进行分析,表明本文选择的用户点击行为特征是相关性高的,并进行了原因分析;然后与人工标注的数据方法进行了比较,表明本文采用的自动标注方法与人工标注方法有较高的一致性,并且性能和效果优于基于点击频率的标注策略,特别是在热点查询词和稀疏查询词上有很大的改进效果。