一种基于随机梯度下降的ListNet排序算法

被引量 : 7次 | 上传用户:asd123123liu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,搜索引擎的重要性与日俱增。如何有效地搜索到有用的信息是非常重要的,好的搜索引擎能够帮助用户节省很多时间。搜索引擎的核心部分就是对查询相关联的网页进行排序,网页排序的好坏也显得越来越关键,关系到一个搜索引擎的好坏。排序学习是当前比较热门的网页排序领域,也是效果比较好的。按排序方法来分可以分为三类:样本点级别、样本对级别和列表级别;而列表级别的排序学习算法在这三类方法中排序效果是最好的。ListNet是列表级别的排序算法中比较经典,并且排序效果又不错的算法。但其不足之处在于:ListNet算法的收敛速度不快,运行时间直接依赖于训练集的大小,不适用于查询量大的数据集的训练学习,对于海量数据集就更加不适用了。随着越来越多的大查询量的数据集,甚至海量数据集的出现,现有的排序学习的算法已经不适用于对其进行训练。因为现有的算法在训练时需要将数据一次性读入内存,而大查询量的数据集,甚至海量数据集是不可能一次性读入内存的。因此,本文的出发点就是设计一个能够适用于大查询量的数据集,甚至海量数据集的训练学习的排序学习算法。本文提出了针对ListNet算法不足之处的改进思路。将原先使用的神经网络模型改为用SVM模型,将原来使用的梯度下降算法改为用改进的随机梯度下降算法。这样将ListNet结合Pegasos框架来弥补其算法的不足,使改进算法的收敛速度变快不少,运行时间也不直接依赖于训练集的大小,并且使改进算法能够适用于查询量大的数据集,甚至海量数据集的训练学习。本文在LETOR(MQ2007,MQ2008,OHSUMED,TD2003,TD2004)数据集上进行实验,先对改进算法与ListNet的运行时间进行了对比,再对比改进算法与ListNet的精度,最后对改进算法与其他列表级别的排序算法的精度进行对比。实验结果表明相对于ListNet,改进算法在训练时间上是有绝对优势的,并且改进算法在查询量大的数据集上精度要高于ListNet和其他列表级别的排序算法。
其他文献
大陆公务员考试录用制度推行二十余年来,取得了显著成效,为我国各个行政领域选拔了很多优秀的人才。但是,大陆公务员考试录用制度起步较晚,还不够完善,需在加快考试立法、完
疏松砂岩油气藏分布广泛,出砂是这类油气藏面临的严重问题,水平井是疏松砂岩油气藏开采的一种重要手段,因此,对水平井进行出砂预测就显得至关重要,而目前国内还没有对水平井
研究背景斑秃(alopecia areata)是一种常见的毛发疾病,呈局限性斑片状脱发,常表现为多灶性。本病在一般人群的患病率约为0.1-0.2%,约占皮肤科门诊初诊患者的2%,其中5%-7%患者
水体富营养化问题日益严重,河流、湖库等水域生态系统受到破坏,对环境资源造成威胁,也造成了严重水体污染。也对构建和谐社会,营造安居乐业美好舒适环境提出了挑战,恢复人类
多核处理器(Chip Multi-Processors,CMP)相比单核处理器具有功耗低、复杂度小、可扩展性好和性价比高等优势,已成为工业界和学术界的主流微处理器体系结构。近来在服务器和数
后金融危机时代,伴随着美国“印钞经济”和欧洲主权债务危机的接连爆发,泉州地区进出口贸易额受到了一定的影响,与此唇齿相依的商业银行外汇业务也受到了更大的挑战。机遇孕
录播教室是流媒体技术与教学模式变革的产物,它满足了高等院校远程视频教学、精品课程建设和教学质量评估的需求。录播教室是一套将教师授课的过程及教学资源以视频的方式进
当今中国正在经历全面的社会加速转型的特殊时期,社会转型带给中国全方面的变化与革新。同时,当前又是经济全球化、信息爆炸化的时代,中国与世界各国的频繁交往,需要大量的外
本文以三个平面理论为指导,以《现代汉语词典》(第五版)中的表可能意义的述补词语为研究对象,从句法特点、语义特征和语用功能三个方面对这些构词法相同的词语进行对比,发现
有机化工废水的科学处理是提升环境保护质量和有机化工制品应用质量的关键,本文从当前超高交联吸附树脂处理技术的角度出发,对该项技术的主要特点进行了研究,并从去除有机物