面向虚拟淘宝的强化学习推荐方法研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:lt13770509399
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网购已经普及全球,在网购平台上给用户推荐个性化的商品列表,在促进商品销售、满足用户购物需求等方面具有重大意义。最大化长期收益是电商平台的目标,然而,传统的推荐算法和基于深度学习的推荐算法大都从解决数据稀疏问题出发,并没有对长期奖励建模。在电商推荐场景中,推荐引擎和用户构成了彼此的环境模型,二者的交互过程是时序相关的决策序列,与马尔可夫决策过程十分契合。强化学习以马尔可夫决策为理论基础,无疑是当下电商推荐取得突破的重要思路。近些年,各大电商集团开始尝试利用强化学习规划商品展示策略。强化学习需要借助环境模型进行学习,而电商平台涉及企业和众多消费者的利益,在真实的线上环境训练模型成本巨大,因此,构建贴近真实环境的仿真环境是将强化学习落地电商推荐的第一步。国内的淘宝、京东、美团等平台都在尝试利用内部的真实数据去构建虚拟环境。目前可以开源使用的电商仿真环境有阿里集团和南京大学合作开发的开源环境“虚拟淘宝”。本文在“虚拟淘宝”上训练三大性能优越的强化学习算法:PPO、SAC、TD3,取得了较原作者使用的DDPG更理想的学习结果。结合算法原理和实验效果,本文进一步对PPO、SAC、TD3作了针对性的改进。PPO在“虚拟淘宝”上采样效率差,本文使用4个子线程并行与环境交互,采集训练轨迹供给PPO主线程更新策略模型,并针对每个样本的重复使用次数等重要参数做了严格的对比实验,使得PPO在“虚拟淘宝”上的学习结果显著提升。SAC的策略网络在“虚拟淘宝”上易产生大量边界动作,干扰训练过程,本文使用全新的公式来计算策略熵,有效降低了边界动作造成的计算误差,提升了学习结果和训练稳定性。TD3对环境比较敏感,本文针对“虚拟淘宝”对TD3作了三个改进:首先,为了提高策略网络的学习效率,让目标策略网络和当前策略网络对当前虚拟环境的状态分别预测一个候选动作,用当前估值网络进行估值,选取估值较大的候选动作与环境进行交互;其次,本文采用具有自相关性的OU过程作为探索噪声来提高TD3的探索能力;最后,本文使用优先采样的方法对样本进行存放和采集,在上一轮更新中估值网络的估值偏差较大的样本被赋予较大的优先级,即增大该样本的学习力度。本文将改进后的PPO、SAC、TD3分别用DPPO(Distributed PPO,简称DPPO)、SAC_E(SAC with new Entropy formula,简称SAC_E)、TTD3(TD3 with Three adjustments,简称TTD3)来表示,便于描述和比较。算法的效果用CTR(ClickThrough-Rate,简称CTR)来衡量。DPPO的CTR学习结果改善最明显,SAC_E较SAC的CTR收敛均值高大约15个百分点,TTD3较TD3的CTR收敛均值高大约9个百分点。为强化学习在电商推荐场景的在线调优提供了可以参考的初始化策略模型。
其他文献
高瓦斯低透气性煤层采取水力压裂、爆破等强化增透措施后,在地应力作用下裂隙会在一定程度上压缩甚至闭合,从而大大影响瓦斯抽采效果,通过支撑剂的支撑导流作用可以解决上述问题。本文通过理论分析和数值模拟研究了固粒对煤层裂隙的支撑导流作用机制,主要的研究内容及成果如下:构建了包含裂隙的不同强度煤体模型,运用RFPA软件模拟研究了地应力对不同强度煤体裂隙闭合力学行为及渗透特性的影响规律。在相同地应力作用下,不
学位
报纸
近年来,计算机技术日新月异的发展使得图像数据井喷式增长,所以计算机视觉图像处理方向成为了众多研究者的关注领域,而图像检索技术作为图像处理的基础领域成为了热门研究方向之一。伴随着深度卷积神经网络的出现,基于内容的实例图像检索有了极速的发展,如何快且准地从繁杂的图像数据库中检索出人们需求的图像的问题急需被解决。基于卷积神经网络的实例图像检索主要思想是提取图像的特征,然后测量这些特征的相似度得到最后的检
学位
我国拥有丰富的天然煤炭资源。根据国家发布的事故统计可知,瓦斯事故发生次数仍在煤矿事故总发生次数的前列。为保证井下工作的安全展开,需对瓦斯含量较高的煤层进行瓦斯抽采工作。瓦斯抽采工作的进行与采煤区工作面瓦斯涌出量相关,故要对瓦斯涌出量进行准确的预测,以提高瓦斯抽采工作的效果、保证矿井作业的安全。选择BP神经网络作为本文所用预测模型。针对BP神经网络易陷入局部极小值、收敛速度慢、权值阈值随机产生等问题
学位
蛋白质是生命活动的承担者,是有机体的重要结构组成。在生物细胞中,蛋白质参与了许多生命活动,行使着许多重要功能。而蛋白质行使正常功能要受到其所处生化环境的制约。蛋白质的异常定位通常与疾病有关,如阿尔茨海默病、代谢紊乱和癌症。因此,蛋白质亚细胞定位研究对于理解蛋白质的功能和机制起着关键作用,在生物学和医学方面具有重要意义。通过实验手段测定蛋白质定位的人力成本和时间成本都很高,无法满足人们的需要,这就使
学位
伴随着矿井智能通风的快速发展,矿井通风网络解算的真实性要求更高,对于通风参数的测试结果要求更加精准,使用传统的局部阻力测试方法已经无法满足智能通风的要求。巷道的局部阻力损失与风流流场密切相关,要想准确的测定巷道局部阻力,首先要确定涡流区的边界。本论文在基于流体相似理论的前提下,设计相似比为1:20的突扩巷道实验模型,因为光滑的实验模型内的风流无法达到完全紊流,所以采用黏贴玻璃珠来增加壁面粗糙度的方
学位
高瓦斯矿井在进行瓦斯抽采时,导致采空区漏风量增加,遗煤自然发火危险性增大。石港矿15212综放工作面开采15号煤层时,位于顶板4-5m的不可采14号煤层垮落,覆盖在采空区15号煤层遗煤上部,形成双层遗煤,自燃危险性增加;且14号煤层自然发火期短,顶板坚硬,不易冒落,导致采空区漏风严重,防灭火难度大。为解决石港矿15212综放工作面采空区双层遗煤自然发火问题,本文釆用理论分析、实验研究、现场测试和数
学位
目的:探讨针对系统性红斑狼疮在治疗中采取小剂量利妥昔单抗标准化治疗的应用价值。方法:选取2018年5月-2022年5月我院收治的52例系统性红斑狼疮患者,根据治疗方案分成2组,对照组(n=38)采取激素联合免疫抑制剂治疗;研究组(n=14)采取小剂量利妥昔单抗标准化治疗,分析治疗效果,对比治疗总有效率、不良反应发生率。结果:两组间比较,研究组治疗总有效率更高,P<0.05;研究组不良反应发生率更低
期刊
报纸
水稻作为全球最主要的食品来源之一,具有很高的经济价值。稻瘟病是我国水稻三大病害之一,是一种极为严重的真菌性病害,其致病成因是稻瘟菌侵染。稻瘟菌不仅对水稻产生危害,它还能感染小麦、大麦、小米等其他作物,对全球作物产量造成严重危害,是一种十分重要的植物病原体。当前,真菌-植物互作领域的研究虽然取得了一定的进展,但是由于真菌病原体在侵染植物的过程中包含抑制植物免疫、破坏植物细胞等多个生物过程,为理解复杂
学位