基于深度强化学习的展示广告实时竞价策略

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:owen_climb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实时竞价(Real-Time Bidding,RTB)是展示广告(Display Advertising)的重要机制。RTB允许广告主对每一个广告展现进行评估并出价,其核心是需求方平台(Demand Side Platform,DSP)。DSP代表广告主的利益,为有效实现展示广告的自动优化投放,满足广告投放收益最大化的需求,制定实时高效的竞价策略是DSP最需要解决的问题。为实现这一目标,近年来,众多相关研究工作将竞价策略视为一个静态优化问题,即独立处理每个广告展现的价值,或者为不同的广告流量设置不同的固定价格。但是,由于同一个广告展现通常有数以千计甚至更多的竞争者参与竞价,并且广告主随时可能更改投放计划的设置,这导致竞价环境高度动态且不可预测。因此,此类静态策略在实际应用中难以达到广告主的目标。为解决上述问题,本文提出一种基于深度增强学习的展示广告实时竞价模型(Deep Reinforcement Learning to Bid,DRLB),将竞价决策过程视为强化学习问题。其中,状态空间由竞价信息和实时竞价参数组成,智能体(Agent)的动作是对出价进行设置。在该模型中,针对RTB环境下大规模数据量问题,本文采用深度Q网络(Deep Q Network,DQN)对相关参数进行求解。进而,本文提出了一种新的奖励函数,解决了DQN中即时奖励函数(Immediate Reward Function)在严格预算约束下难以求解模型最优解的问题。考虑到RTB环境下大规模数据量问题,本文并采用深度神经网络RewardNet对奖励函数进行拟合,以使模型能够更高效地求解最优策略。此外,本文针对DQN中“探索”和“利用”的平衡问题提出一种新?-greedy策略——自适应?-greedy策略,该策略能根据Q值的分布自适应地调整?值以更好地平衡“探索”和“利用”,使得模型更快地收敛到最优解。本文基于iPinYou数据集对DRLB进行不同的实验,并与当前主流的模型相对比。实验结果表明,本文提出的模型在各个指标上均优于其他模型,同时验证了提出的两个创新点的有效性。
其他文献
目的:分析腮腺区肿瘤术后发生面神经损伤的原因。方法:对48例腮腺区肿瘤手术患者资料进行回顾性分析,统计分析各种因素下发生面神经损伤的概率。结果:21例患者出现面神经损伤,发生
人乳头瘤病毒(HPV)感染是子宫颈上皮内瘤变(CIN)及子宫颈癌的主要致病因素,并且因HPV型别的不同,其致病能力也有差别,而持续感染高危型HPV则是促使子宫颈癌发生的最主要因素。近年来
目的探讨灰色模型方法预测艾滋病发病率的可行性,为卫生行政管理部门制定相应的策略提供依据。方法利用灰色模型对全国2004--2014年艾滋病发病率数据进行建模拟合,并外推预测。
基层医院由于设备条件、技术力量等多种原因导致超声检查的局限性,因此应当加强与孕妇之间的沟通工作、履行知情告知义务,让孕妇有转诊、择取产前诊断技术服务资格的医疗机构检
西部大开发战略实施以来,为西部旅游业的飞速发展带来千载难逢的机遇,被称为'世界屋脊'西藏,地处高原,历史文化悠久,民风独特,可利用和开发的旅游业非常多。西藏独具
中国指画,有其漫长的历史。我们在阅览这部无法丈量的长卷时感到:有的时段画面疏落,作品如寥落的晨星;有的时段画面缜密,作品如群星闪耀,又如滚滚的美术长河;有时微波荡漾,有
目的对近年来本院实施的肺动脉闭锁伴室间隔缺损(PA /VSD)一期根治术患儿手术方式及右室流出道重建方法进行总结,结合术后院内各项指标进行比较分析;对比同期一期姑息 PA /VSD手术
采用光纤激光对4mm厚7A52铝合金板进行对接焊,研究其在光纤激光作用下焊接接头的组织性能特征。结果表明:7A52铝合金光纤激光焊接头热影响区出现不完全再结晶,但轧制带状依旧清
提出了一种基于夫朗和费衍射测量凸透镜焦距的方法。一束平行光垂直入射光栅,从光栅出射的衍射光经待测凸透镜后照射CCD。CCD沿轨道平移,同时计算机记录正负一级衍射条纹最细
心脏瓣膜置换术后患者的家庭护理干预及良好的自我管理行为能力,对保证手术效果、延长患者术后生存期和提高术后生活质量至关重要。由于患者文化程度不同和对心脏瓣膜术后知