基于向量化的多场景召回方法研究与实现

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:coophui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文主要来自于本人在小红书公司的实习项目。该项目基于用户的行为序列、用户画像、笔记画像以及上下文情景,预估用户感兴趣的笔记并完成召回(推荐系统的一部分,为用户粗选一部分待推荐的物品)。平台出于商业化的考量,会在笔记中嵌入信息流广告,因此召回的笔记既要满足用户的喜好,又要最大化平台的利益。本文的主要工作在于笔记推荐系统中的召回阶段,主要是以向量化召回为方式的研究工作。由于召回阶段面对的候选集庞大且对线上的实时性要求较高,当前的召回方式一般采用多路召回的方法,每一路分别用于特定的召回目的。基于策略型(比如按照热度、地理位置的召回等)和统计型(比如协同过滤、矩阵分解等)的召回方式,优点是易于部署、可解释性强,缺点是使用场景有限、难以满足用户的个性化需求;而现有的图表示学习方法受热门物品的影响较大,会出现严重的马太效应。为了有效解决上述问题,本论文在已有方法的基础上,提出了基于向量化的多场景召回方法。该方法包含两类场景:对特定用户的笔记召回(U2I)以及相似笔记之间的召回(I2I)。首先对多种数据源进行分析和处理,根据特征的重要程度进行特征筛选,并对比了负样本的构造方式进行样本集构造。两个场景下分别使用不同的算法进行建模,其中U2I场景下使用双塔DSSM模型优化用户和笔记之间的交互行为,在输入层将数值型特征按照分布情况进行分桶,然后采用Embedding方式将所有特征向量化,可以有效降低模型参数量、加快模型收敛;同时在模型中引入交叉层,从而提高特征提取效率。在I2I场景下,本文使用图注意力网络GAT对笔记之间的邻接关系进行学习,通过多个注意力层聚合的方式更新节点表示,从而使得笔记可以融合全局特征。在产出向量表示之后,进行向量的检索和召回。本文通过对小红书站内7天的用户笔记交互行为进行采样,分别得到了训练集和评估集。评估采用两种指标,包括离线训练指标AUC(Area Under the Curve)、准确率Accuracy;以及产出向量表示后的检索召回指标Recall@K(预测前K个物品在真实的物品序列上的召回率)。在实验过程中,AUC为0.7619,Accuracy为0.763。通过与其他现有的不同方法对比,本论文提出的方法预测误差更低、召回效果更好,从而验证了本论文方法的有效性。
其他文献
人体姿态估计是计算机视觉中一项基础且关键的技术,是研究的热点。人体姿态估计在关键点定位、虚拟现实、自动驾驶、视频监控、运动分析、人机交互和3D目标识别等很多方面有着广泛的应用。目前,随着人工智能技术的发展,国内外学者们提出了大量的基于深度学习的人体姿态估计算法,取得了显著的成果。但是真实场景复杂多变,现有的人体姿态估计算法仍难以满足实际应用的需求,复杂场景中的严重遮挡、低照度等实际问题极大影响了人
新型建筑工业化背景下,建筑进入智能建造时代;但部品接口问题却日益突出,具体表现为部品接口安装过程中,由于类型繁多、存在尺寸偏差使建筑的建造质量和效率无法得到根本改善,严重制约建筑工业化的发展。因此,本文重点研究如何解决部品接口安装质量与安装效率的问题,以适应新型建筑工业化下,建筑个性化定制和高效高质量发展的需求。本文从构成秩序视角出发,以智能建造理论为基础,立足事物发展本质,对部品接口技术体系进行
教材分析:四边形内角和是人教版修订教材增加的内容,让学生解决"四边形的内角和是多少度"的问题。这一内容以往是放在初中教学的,现下移到小学阶段,纵观三个学段的教材:早在一年级下册,学生认识了长方形、正方形、平行四边形、三角形和圆5种平面图形,能够在众多的平面图形中辨认出这些图形。四年级下册对三角形的学习经历了三角形的初步认知——三角形的三边关系——三角形的分类——三角形的内角和——四边形内角和
期刊
铁路运输兼顾货运和客运,是关乎国计民生的运输大动脉。现阶段铁路运输仍无法做到全封闭运行,因铁路基础防护设施薄弱而导致的铁路交通事故时有发生。其中,行人入侵是影响铁路行车安全最为重要的因素之一,实现铁路关键区域实时行人检测与报警将为列车行车安全提供保障。目前,短焦距摄像机广泛应用于铁路场景监控,为有效解决大视场下小尺度行人检测精度低而引起的高漏报率、高误报率等问题,本文展开基于深度学习的铁路场景小尺
5G传输网需要基于现有的4G传输网进行演化。在演化过程中,由于基站升级和人们对网络需求的增长,传输网中的部分节点接入流量过大,导致包含该类节点的接入网负载过高,使整个传输网络出现负载不均衡问题。在这种情况下,改变现有基站之间的拓扑连接关系,将高负载网络中的节点让渡给低负载网络,是一种成本较低、耗时较短的网络负载均衡优化方法。本文为了解决负载不均衡问题,研究拓扑优化算法来充分探索拓扑解空间,并且为了
中速磁浮作为一种运营时速200km/h的市域交通方式,主要服务于都市圈内部以及市郊范围通勤客流,在“十四五”规划建设阶段具有广阔的发展前景。列车运行图是沟通运输供给和运输需求的重要桥梁,为达到高效、节能的运输目标,本文将针对中速磁浮列车运行图优化问题展开研究,主要研究内容如下:(1)面向多目标的中速磁浮列车运行图优化问题分析。探讨中速磁浮内部各系统之间的耦合关系,分析客流需求特性和磁浮列车运行特性
随着经济的发展和维护国家安全的需要,在军事领域中对现代化战斗机或侦察机等飞行器的启动过程中的机动性、可控性等要求也在日益加强。在各种飞行器起飞方式中,电磁弹射与传统液压气压弹射方式相比具有出口速度高、可控性好、准备周期短等优点,是现有起飞方式中最具有优势的。直线电机作为电磁弹射系统的核心部分,直接对弹射目标提供推力。但传统常导直线电机相对于超导直线电机存在着推力密度较小、重量相对较大等缺点,限制了
随着科学技术的不断发展,轨道交通行业也进入新的发展时期,作为列车牵引传动控制系统的核心组成部分,牵引控制单元(TCU)的设计与研制是十分关键的技术。近年来,随着高速列车故障预测与健康管理(PHM)研究的兴起,对列车牵引控制单元的功能提出了高速数据通信和大容量数据存储等功能要求。对这两方面进行深入的研究,对轨道交通行业的智能化和数字化提升有重要价值。本文基于混合动力动车组项目,设计了一个同时具备大容
随着我国铁路桥梁建设的发展,减隔震技术的应用越来越广泛,其中铅阻尼器技术有较好的发展前景。目前有关铅芯和高性能材料组合的复合式阻尼器研究较少。本文依据连续梁桥受力特点,将铅芯同高性能材料聚氨酯结合,提出了适用于连续梁桥的新型铅芯阻尼器,并利用数值分析方法系统地研究了其减隔震性能和应用于连续梁桥的减隔震设计方法以及减震效果,主要研究内容如下:1、分析了铁路连续梁的减隔震设计需求,确定了适用于铁路连续
铁路运输是交通运输体系的重要组成部分,其安全性和可靠性至关重要。轨道电路是铁路信号系统中的重要组成部分,扼流变压器作为轨道电路中强弱电的结合部分,不仅能提供牵引电流的回流通道,还具有抑制牵引供电系统产生的不平衡电流干扰的作用。然而,一方面,高速铁路扼流适配变压器结构复杂、工作环境恶劣、故障位置隐蔽,另一方面,高铁线路封闭,仅有短时间“维修天窗”,一旦故障发生,查找和维修的时间较长,仅凭维修人员的经