基于深度强化学习的展示广告实时竞价策略

来源 :华南理工大学 | 被引量 : 0次 | 上传用户：owen_climb

【摘要】

：

实时竞价(Real-Time Bidding,RTB)是展示广告(Display Advertising)的重要机制。RTB允许广告主对每一个广告展现进行评估并出价,其核心是需求方平台(Demand Side Platform,DS

【作者】

：

陈颖

【出处】

：

华南理工大学

【发表日期】

：

2004年期

【关键词】

：

展示广告实时竞价竞价策略深度强化学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

实时竞价(Real-Time Bidding,RTB)是展示广告(Display Advertising)的重要机制。RTB允许广告主对每一个广告展现进行评估并出价,其核心是需求方平台(Demand Side Platform,DSP)。DSP代表广告主的利益,为有效实现展示广告的自动优化投放,满足广告投放收益最大化的需求,制定实时高效的竞价策略是DSP最需要解决的问题。为实现这一目标,近年来,众多相关研究工作将竞价策略视为一个静态优化问题,即独立处理每个广告展现的价值,或者为不同的广告流量设置不同的固定价格。但是,由于同一个广告展现通常有数以千计甚至更多的竞争者参与竞价,并且广告主随时可能更改投放计划的设置,这导致竞价环境高度动态且不可预测。因此,此类静态策略在实际应用中难以达到广告主的目标。为解决上述问题,本文提出一种基于深度增强学习的展示广告实时竞价模型(Deep Reinforcement Learning to Bid,DRLB),将竞价决策过程视为强化学习问题。其中,状态空间由竞价信息和实时竞价参数组成,智能体(Agent)的动作是对出价进行设置。在该模型中,针对RTB环境下大规模数据量问题,本文采用深度Q网络(Deep Q Network,DQN)对相关参数进行求解。进而,本文提出了一种新的奖励函数,解决了DQN中即时奖励函数(Immediate Reward Function)在严格预算约束下难以求解模型最优解的问题。考虑到RTB环境下大规模数据量问题,本文并采用深度神经网络RewardNet对奖励函数进行拟合,以使模型能够更高效地求解最优策略。此外,本文针对DQN中“探索”和“利用”的平衡问题提出一种新?-greedy策略——自适应?-greedy策略,该策略能根据Q值的分布自适应地调整?值以更好地平衡“探索”和“利用”,使得模型更快地收敛到最优解。本文基于iPinYou数据集对DRLB进行不同的实验,并与当前主流的模型相对比。实验结果表明,本文提出的模型在各个指标上均优于其他模型,同时验证了提出的两个创新点的有效性。

其他文献

腮腺区肿瘤术后发生面神经损伤的原因分析

目的：分析腮腺区肿瘤术后发生面神经损伤的原因。方法：对48例腮腺区肿瘤手术患者资料进行回顾性分析，统计分析各种因素下发生面神经损伤的概率。结果：21例患者出现面神经损伤，发生

期刊

腮腺区肿瘤面神经损伤原因分析

不同HPVDNA检测方法在子宫颈肿瘤诊断中的应用研究与进展

人乳头瘤病毒（HPV）感染是子宫颈上皮内瘤变（CIN）及子宫颈癌的主要致病因素，并且因HPV型别的不同，其致病能力也有差别，而持续感染高危型HPV则是促使子宫颈癌发生的最主要因素。近年来

期刊

人乳头瘤病毒子宫颈上皮内瘤变子宫颈癌DNA检测

灰色模型方法在艾滋病发病率预测中的应用

目的探讨灰色模型方法预测艾滋病发病率的可行性，为卫生行政管理部门制定相应的策略提供依据。方法利用灰色模型对全国2004--2014年艾滋病发病率数据进行建模拟合，并外推预测。

期刊

灰色模型方法艾滋病发病率预测

浅析基层医院在产前超声诊断中告知义务的重要性

基层医院由于设备条件、技术力量等多种原因导致超声检查的局限性，因此应当加强与孕妇之间的沟通工作、履行知情告知义务，让孕妇有转诊、择取产前诊断技术服务资格的医疗机构检

期刊

医院基层超声检查产前告知

浅谈西部旅游业的发展——以西藏林芝鲁朗为例

西部大开发战略实施以来,为西部旅游业的飞速发展带来千载难逢的机遇,被称为'世界屋脊'西藏,地处高原,历史文化悠久,民风独特,可利用和开发的旅游业非常多。西藏独具

期刊

西藏旅游业林芝鲁朗镇

指画复兴正当其时

中国指画,有其漫长的历史。我们在阅览这部无法丈量的长卷时感到：有的时段画面疏落,作品如寥落的晨星;有的时段画面缜密,作品如群星闪耀,又如滚滚的美术长河;有时微波荡漾,有

期刊

手指画中国传统绘画艺术高其佩钱松喦李世倬张立辰书法家潘天寿文艺复兴高凤翰

两种手术方法对肺动脉闭锁伴室间隔缺损预后影响的探讨

目的对近年来本院实施的肺动脉闭锁伴室间隔缺损（PA ／VSD）一期根治术患儿手术方式及右室流出道重建方法进行总结，结合术后院内各项指标进行比较分析；对比同期一期姑息 PA ／VSD手术

期刊

肺动脉/畸形室间隔缺损外科手术治疗儿童

7A52铝合金光纤激光焊接头组织性能分析

采用光纤激光对4mm厚7A52铝合金板进行对接焊，研究其在光纤激光作用下焊接接头的组织性能特征。结果表明：7A52铝合金光纤激光焊接头热影响区出现不完全再结晶，但轧制带状依旧清

期刊

7A52铝合金光纤激光焊组织力学性能断口形貌

无需等高共轴调节且快速测量凸透镜焦距

提出了一种基于夫朗和费衍射测量凸透镜焦距的方法。一束平行光垂直入射光栅,从光栅出射的衍射光经待测凸透镜后照射CCD。CCD沿轨道平移,同时计算机记录正负一级衍射条纹最细

期刊

夫朗和费衍射凸透镜焦距

居家护理干预对心脏瓣膜置换术患者生活质量的影响研究

心脏瓣膜置换术后患者的家庭护理干预及良好的自我管理行为能力,对保证手术效果、延长患者术后生存期和提高术后生活质量至关重要。由于患者文化程度不同和对心脏瓣膜术后知

期刊

居家护理干预保健手册心脏瓣膜置换术后

基于深度强化学习的展示广告实时竞价策略

与本文相关的学术论文