基于用户点击行为的相关性数据集自动标注

来源 :南开大学 | 被引量 : 0次 | 上传用户:saosaoxp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术的发展和互联网规模的扩大,互联网上的信息不断的增长,如何有效的检索这些海量信息成为Web信息检索领域的重要研究课题。在信息检索系统中,检索模型和检索系统的性能评测是最为重要的两个方面。检索模型关注为用户的查询结果列表进行相关度排序。影响检索模型排序质量的是采用的排序函数,通常采用监督学习或排序学习的方法,需要有大量的相关性数据来训练排序函数。对检索系统的评测也需要在人工标注的相关性数据集上运行排序函数对得到的结果进行评估。这两个方面都需要大量的相关性数据集。   传统的对相关性数据标注大都是由人工标注的,这种方式存在一些缺陷,比较耗费时间和人力,会受到规模的限制,数据时效性较差,而且由于标注者并不是真实的Web信息检索使用者,查询意图等背景会影响标注的准确度。因此,本文的目标是通过搜索引擎的用户查询日志来分析用户点击行为,并进行相关性数据自动标注。这种方法的优点是标注代价低,能获取大量的相关性数据集合。   本文的工作主要在两个方面:一是由于用户的点击有相关点击和不相关点击,需要对用户点击行为特征进行分析,这里以单个用户查询会话为对象研究用户点击行为特征的相关性,以用户的查询主题进行的Session划分粒度,按贝叶斯方法对点击行为特征进行相关性的量化度量;二是选择用户点击行为特征中相关性高的特征用贝叶斯点击模型来进行相关性自动标注,来自动提取训练数据,这里也考虑对未被点击的文档进行经验标注。   最后,本文通过实验,对用户查询会话背景中的点击行为特征进行分析,表明本文选择的用户点击行为特征是相关性高的,并进行了原因分析;然后与人工标注的数据方法进行了比较,表明本文采用的自动标注方法与人工标注方法有较高的一致性,并且性能和效果优于基于点击频率的标注策略,特别是在热点查询词和稀疏查询词上有很大的改进效果。
其他文献
对于大多数的物体,我们都可以通过纹理来描述其表面错综复杂的细节。纹理合成技术从开始发展到现在一直受到众多研究学者的关注,在许多领域都发挥着巨大的作用,是当前图像处
随着图形学以及三维计算机虚拟图像技术的迅速发展,纹理合成技术已成为当今计算机图形学领域的热点之一,并在现实化虚拟仿真、机器视觉处理等领域得到应用。纹理能够展示出细
随着信息技术尤其是网络技术的发展,越来越多的应用领域,如网络监控、垃圾邮件分类、传感器网络等,需要对其以每天数以百万Gbit增长的流数据进行实时处理。由于流数据经常呈现高
超立方体以其正则性、对称性、强层次结构和高容错性等优越性质成为最具吸引力的互连网络之一,但它并不是各方面性质都最好的互连网络。迄今为止,文献中提出了超立方体的多种变
由于加工一个MEMS器件的周期较长,经费较高,因此,在设计之初都要进行仿真来验证所设计的结构是否符合实际需求。为此,本组在之前开发了虚拟工艺软件,旨在通过仿真得到器件的三维结
P2P技术是目前计算机网络领域的一个研究热点,它的发展将影响人们获取信息的方式和整个计算机网络的概念。P2P充分利用网络节点的自身资源,实现整个网络资源的高效共享。副本
基于摘要的垃圾邮件识别方法是众多垃圾邮件识别方法中十分重要的一种。这类技术通过对比邮件摘要相似性来判定垃圾邮件。然而,现有的识别技术大都采用集中式的摘要管理模式,该
随着通信技术日新月异的发展,相关的科研理论不断与时俱进,三维模型由于自身巨大的优势而逐渐成为主流,并广泛应用于虚拟现实、机械制造等行业领域,尤其在三维模型语义标注与
在众多数据挖掘技术中,多分类器融合技术是近几年来的研究热点,它利用多个分类器来解决问题,可以显著提高系统的泛化能力,达到比个体分类器更好的分类精度和鲁棒性,受到许多
可扩展标记语言XML(extensible Markup Language)已逐渐成为Web上对数据进行表示和交换的标准格式。随着XML使用的日益广泛,越来越多的数据库厂商考虑将XML数据的管理融入到传