论文部分内容阅读
实时竞价(Real-Time Bidding,RTB)是展示广告(Display Advertising)的重要机制。RTB允许广告主对每一个广告展现进行评估并出价,其核心是需求方平台(Demand Side Platform,DSP)。DSP代表广告主的利益,为有效实现展示广告的自动优化投放,满足广告投放收益最大化的需求,制定实时高效的竞价策略是DSP最需要解决的问题。为实现这一目标,近年来,众多相关研究工作将竞价策略视为一个静态优化问题,即独立处理每个广告展现的价值,或者为不同的广告流量设置不同的固定价格。但是,由于同一个广告展现通常有数以千计甚至更多的竞争者参与竞价,并且广告主随时可能更改投放计划的设置,这导致竞价环境高度动态且不可预测。因此,此类静态策略在实际应用中难以达到广告主的目标。为解决上述问题,本文提出一种基于深度增强学习的展示广告实时竞价模型(Deep Reinforcement Learning to Bid,DRLB),将竞价决策过程视为强化学习问题。其中,状态空间由竞价信息和实时竞价参数组成,智能体(Agent)的动作是对出价进行设置。在该模型中,针对RTB环境下大规模数据量问题,本文采用深度Q网络(Deep Q Network,DQN)对相关参数进行求解。进而,本文提出了一种新的奖励函数,解决了DQN中即时奖励函数(Immediate Reward Function)在严格预算约束下难以求解模型最优解的问题。考虑到RTB环境下大规模数据量问题,本文并采用深度神经网络RewardNet对奖励函数进行拟合,以使模型能够更高效地求解最优策略。此外,本文针对DQN中“探索”和“利用”的平衡问题提出一种新?-greedy策略——自适应?-greedy策略,该策略能根据Q值的分布自适应地调整?值以更好地平衡“探索”和“利用”,使得模型更快地收敛到最优解。本文基于iPinYou数据集对DRLB进行不同的实验,并与当前主流的模型相对比。实验结果表明,本文提出的模型在各个指标上均优于其他模型,同时验证了提出的两个创新点的有效性。