依赖于查询的排序学习算法研究

来源 :中山大学 | 被引量 : 0次 | 上传用户:chenyong198966
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
排序是信息检索的核心问题,因为一个搜索系统的好坏主要由它的排序结果的正确率来评价。信息检索中提出了许多排序模型。直到最近,被称为“排序学习”的机器学习技术被深入应用于这个任务。在过去的大部分工作中,一个单一的排序模型被用来处理所有的查询。这可能是不太恰当的,因为不同的查询之间往往有比较大的差异。 本文首先论述对于不同的查询,采用不同的排序模型的必要性。然后提出一个通用的依赖于查询的排序学习框架。该框架是基于查询聚类的。该框架将训练查询表示成查询特征空间的一个点。在排序的时候,给定一个测试查询,框架找出与它接近的训练查询,构建一个依赖于测试查询的训练集,然后用这个训练集训练一个模型,最后使用这个模型对与测试查询关联的文档进行排序。这个框架对于改善排序的精度确实是有帮助的,因为它利用了相似查询的有用信息,同时避免了不相似查询的负面影响。 当进行查询聚类的时候,使用的查询特征以及查询相似性的计算,对于聚类的精度是非常关键的。从以前的工作中,我们知道同样的特征对于不同的查询,它的区分度是不一样。本文提出了一种新颖的查询相似性表示方法:利用特征的区分度将查询表示成一个特征排序,然后本文使用特征排序的相似度来表示查询的相似度。本文构建依赖于测试查询的训练集时,使用了两种方法来选择相似的查询:KNN和固定距离的算法。 本文在LETRO(TREC,OHSUMED)数据集上进行实验。实验结果表明,依赖于查询的排序方法要优于使用单一排序模型进行排序的方法。
其他文献
异常处理机制是面向对象语言普遍支持的提高软件可靠性的方法。作为两款被广泛使用的面向对象语言,C++和Java语言都支持异常处理机制。异常处理机制通常由编译器和异常处理机
学位
带硬约束的MAX—SAT问题又称为Partial MAX—SAT问题,它是SAT问题和MAX—SAT问题的结合,比后两者有着更强的描述问题的能力和更广泛的应用背景。人工智能、电路设计、生物信息
随着数字图像技术的发展,数字图像处理在岩体工程中得到了广泛的应用。在岩体工程中,岩石节理裂隙的几何特征是一个非常重要的性质。提取岩石图像中的各种节理裂隙,了解节理裂隙
学位
近年来,以Internet为代表的信息网络给人们的生活带来了巨大的变化。通过Internet上网已经成为人们生活中不可缺少的一部分,而且现在人们还要求在移动中获得Internet服务。为此
学位
随着互联网和多媒体技术的迅速发展,人们可以访问到的视频数据急剧增长,如何从这些海量的数据中寻找感兴趣的内容成为一个非常重要的研究课题。通常,人们利用特征提取算法从多媒
学位
多方保密计算是近几年国际密码学界的一个研究热点。它的应用范围很广,比如数据挖掘、科学计算、数据库利用等等,已成为密码学领域里一个极端重要的工具,计算领域里一个必不
随着传统身份认证技术出现的漏洞和不足,身份安全问题地解决迫在眉睫。因此人们开始对生物特征认证技术进行研究,作为最可靠的生物特征认证技术之一的虹膜识别,因其唯一性、稳定
学位
20世纪90年代后期出现了一种新兴编程技术--面向Aspect编程(Aspect-Oriented Programming,AOP),成为软件工程领域研究热点之一。随着AOP技术的日趋完善,迫切需要一种贯穿需求
学位
在当今计算机和Internet产业的发展中,嵌入式系统成为一个重要的发展领域,而嵌入式实时操作系统(RTOS)在嵌入式系统软件体系中起着越来越重要的作用。μC/OS-Ⅱ是一个公开源
学位