基于直接优化信息检索评价方法的排序学习算法研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:zhangnnnnnn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web2.0时代的到来,互联网信息呈现爆炸式增长。如何从海量信息中迅速找出用户需要的数据成为了信息检索研究的重点。排序是信息检索系统的重要组成部分,传统的检索模型主要分为两个类别,一类基于文档内容,判定查询与文档的相关程度,称为查询依赖模型,如布尔模型,向量空间模型等;另一类基于链接分析,判定文档自身的重要性,如PageRank, HITS等,称为查询独立模型。这些模型各有特色,如何将它们结合起来,创建更高效的新模型成为了研究者关注的焦点,排序学习技术(Learning to Rank)应运而生。排序学习使用机器学习技术来解决排序问题,有效提高了排序性能。目前排序学习方法主要归为三类:基于单个文档的点级(Pointwise)方法,基于文档对的对级(Pairwise)方法,基于文档列表的列表级(Listwise)方法;而基于文档列表的列表级方法又可分为两个子类,即直接优化信息检索评价方法和最小化列表级排序损失算法。直接优化评价方法的排序学习算法将整个文档列表作为一个对象考虑,更加接近实际意义的排序,因此其排序性能一般优于前两类算法。本文对直接优化信息检索评价方法这一子类算法进行了研究,并提出了新的算法,进一步提升了排序学习模型的排序性能,主要成工作如下:(1)本章中,我们提出了一种排序学习方法SVMERR,使用结构化SVM方法优化信息检索评价方法Expected Reciprocal Rank (ERR),相比于优化评价方法MAP和NDCG而言,优化ERR评价方法对排序性能有更大的提升,ERR评价方法基于级联模型,将用户浏览行为因素考虑进来,而结构化SVM方法能够保证找到全局最优解,因而将二者融合能够有效的提升排序性能。(2)本章中,我们扩展了基于Boosting框架的排序学习方法AdaRank,并将其用于优化三种信息检索评价方法:ERR, MRR和Q-measure。我们期望采用AdaRank排序框架优化这三种评价方法能够取得更好的排序性能。排序学习方法是基于特征的,而目前对于特征生成的研究很少,受此启发,我们提出了一种特征生成框架FGFIREM,采用本文提出的排序学习算法作为特征生成因子,将其产生的排序分数作为新特征,以丰富特征空间,并采用本章提出的两种算法AdaRank-ERR和AdaRank-Q在新特征上学习排序模型。在LETOR3.0数据集上的实验结果表明,相比于现有排序算法,本章提出的方法有效的提升了排序性能。
其他文献
近年来,随着移动计算技术和传感网络技术的蓬勃发展,基于位置的服务(Location Based Service, LBS)应用越来越广泛,用户的位置隐私成为人们关注的问题。轨迹隐私是位置服务中
尘肺病是一种肺组织纤维化的疾病,主要是由于人们在生产环境中长期吸入生成性粉尘而引起,这种疾病对患者的危害极大。由于尘肺病体检过程复杂且对象群体庞大,致使有关政府、企业
质量是软件产品成功的关键因素,有效的软件质量保证技术可以减少软件错误、降低软件开发成本、缩短软件开发周期,具有很重要的现实意义。   在所有软件质量保证技术中,软件测
近年来,互联网的快速发展,人们之间交流日益方便快捷,随着新的多媒体社交平台的不断涌出,围绕社交平台开展的交流日益增多,每天有成千上万的用户通过社交平台发表他们的言论
随着Internet的发展,电子商务也日益发展壮大,越来越多的企业建立自已的商务网站达到在线交易的目的,电子商务的一个重要应用是实现了购物方式的转变,消费者只要点击进入网上
随着互联网技术的迅猛发展,在线社交网络(OSN)平台正在成为人类社会关系维系和信息传播的重要渠道和载体,开放的社交网络平台给用户带来使用便捷的同时,在使用过程中也引发了
学位
随着半导体设备工艺水平的不断提高,计算机微处理器的性能也越来越高,功耗也越来越低,但代价为晶体管阈值电压和噪声容限的降低,这使得计算机系统的处理器更容易受到外界环境的影
最近几年,由于各种用户终端和无线网络的普及,内容分享服务已经成为了一个最流行的服务之一。内容分享服务意味着同样的内容会在同一时间或者不同时间被许多终端设备分享。而
摘要:商空间理论是国内学者张钹院士和张玲教授在研究问题求解的过程中提出的,现已经成为粒度计算的三大模型之一。该理论将不同的粒度世界与数学上的商集概念统一起来,用一个