半监督排序学习算法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:lh305879918
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
排序学习是当前信息检索与机器学习领域研究的热点问题之一,它在诸如文档检索、协同过滤、自然语言解析等领域有广泛的应用。排序学习的目标就是应用机器学习技术自动地从训练数据中学习出一个排序函数对目标对象进行排序。针对排序学习问题,目前人们已经提出了很多算法,根据输入表示以及损失函数的不同,它们大致可分为点级方法(pointwise approach)、对级方法(pairwise approach)和列表级方法(listwise approach)三类方法。排序学习是一种有监督学习,因此需要提供一个带标记训练数据集。但是在实际问题中,获取带标记的数据是费时而且昂贵的。为了在排序问题中利用大量存在的未标记样例,自然而然地产生了半监督排序学习问题。借助半监督学习技术从大量无标签数据集中发现隐含的排序信息,对于减少标注代价,提高排序算法的性能具有非常重大的实际意义。因此本文旨在将半监督学习技术应用于排序学习问题,从而开发出半监督情况下的排序学习算法。本研究的主要工作如下:首先,本文提出了正则化提升(Regularized Boosting)学习方法的一般框架框。基于这一框架设计了基于RankBoost算法的半监督排序学习算法。正则化(regularization)是一种具有广泛应用的半监督学习技术,它通过使学习器优化带正则化惩罚项的损失函数,从而利用未标记样例来辅助提高学习性能。提升(boosting)是一种简单高效并且具有理论支持的集成学习方法,它通过渐进式地组合一系列简单的模型得到一个性能更优的模型。通过结合这两种重要的技术,把pairwise型排序学习算法RankBoost扩展到了半监督情况下。具体而言,我们在原有的损失函数中引入基于“光滑性假设”(smooth assumption)的正则化惩罚项,保证相似的样例获得接近的排序得分。进一步,通过理论分析得出损失函数最小化的提升算法。最终设计出的算法既合理地利用了已有的半监督学习假设又保留了boosting方法简单高效的优点。其次,本文提出了把listwise型排序学习算法扩展到半监督情况下的一般框架。在此框架下,首先用半监督学习技术为一部分无标记样例贴上伪标签,然后运行传统的listwise型的算法。基于这一框架我们把典型的listwise型排序算法AdaRank扩展到了半监督排序学习的情形。具体地,算法首先在每个查询内部通过标记传播(label propagation)算法给一部分无标记样例附上标签。然后在增加的数据集上运行改进的正则化形式的AdaRank算法。受益于listwise方法的优点,这种扩展listwise方法的半监督排序学习算法将会提高半监督排序算法的性能。最后,在公开数据集Letor上与已有的半监督排序学习算法进行比较实验,表明了本文所提出的框架的可行性与相应算法的有效性。
其他文献
随着脑科学研究的发展,一种融合了传统机器智能与大脑智能的混合智能系统的实现变成可能。混合智能系统可以突破传统的人工智能在机器智能方面的局限性,为人工智能发展领域开辟
随着云计算的兴起,软件的交付与使用模式正在发生着变化。作为云计算的一部分,PaaS平台为SaaS应用提供完整的开发、部署及运行环境。租户通过PaaS平台租用自己所需的SaaS应用
随着互联网技术的高速发展,网络中积累了大量的数字图像和视频数据,这些数据为人们的使用带来了新的技术挑战。为此,许多专家学者对图像分类、图像检索、目标识别等领域进行
随着互联网技术与信息产业的发展,以及各种图片分享类网站的出现,如今我们已经步入图像时代。图像是一种直观的媒体资源,在日常生活中扮演着重要角色。图像分类是计算机视觉
随着嵌入式系统网络化、智能化应用的不断扩展,传统软件实时操作系统作为支撑软件已无法满足需求。基于硬件化、软硬件协同等手段,在FPGA、SOC等器件上实现硬件实时操作系统已
随着互联网的飞速发展,在线社群图像的规模呈爆炸式增长,面对日益庞大的图像数据,如何对图像库进行有效的组织、管理和检索成为亟待解决的问题。标签是当前标注这些网络图像
实值优化问题在工程和学术领域有广泛的应用背景,许多问题最后都可以被定义成实值优化问题来求解。随着系统越来越复杂,需要优化的参数越来越多,优化问题解空间的维度越来越
MapReduce作为一种有效的数据分析和处理解决方案已被广泛应用于大规模数据处理领域。随着MapReduce应用的扩大,越来越多的服务提供商对外提供MapReduce商业服务。服务提供商
我们生活在一个相互关联的世界。大多数数据或信息对象、组件等是内部关联或者相互作用的,形成了无数的、巨大的、相互关联的复杂网络。不失一般性,相互关联的网络称为信息网
随着电子商务的发展和社交平台的广泛应用,以社交网络平台为载体的社交电商成为人们购物的新渠道。社交平台的用户使用量逐年递增,社交电商的潜在用户数量也随之递增。由此,