论文部分内容阅读
近年来,网络流量急剧上升,将网页上的部分资源当作广告位出售已经成为越来越多的媒体进行流量变现的一个重要手段。计算广告学研究的焦点问题是为一组用户与网页上下文环境的组合,找到与之最匹配的广告。精准的广告投放对用户、媒体和广告主均有利,作为一种新型的展示广告投放模式,实时竞价的出现推动了广告位由线下定价到线上售卖模式的转变,改变了广告市场的格局,也极大地拓展了计算广告学的研究领域,实时竞价算法研究也因此受到了学术界和工业界的广泛关注。本文将实时竞价算法研究划分为两大关键问题:点击率预测和竞价策略的设计。一方面,点击率预估关系到媒体、广告主和用户三方的利益;另一方面广告主需要参考点击率来制定合理的竞价策略。然而,广告历史日志本身存在严重的数据稀疏性,传统机器学习方法构建的预测模型难以达到较高的准确率。本文抓住广告投放是面向用户的商业活动这一重要特征,提出了一种基于用户相似度和特征分化的点击率预估组合模型。该模型首先分析了用户历史行为特征的相似性并据此将其划分为不同子集,接着训练各子集对应的分类子模型,对于所需预测用户、广告、媒体的组合,首先模型需要评估用户与各用户子集的相似度并将其作为子分类器权重,然后统计在各子分类器下的点击概率,最后通过对权重和各子概率的加权组合确定用户的点击率。根据实时竞价的运行模式,广告主通过拍卖的方式获得广告曝光的机会。受广告主预算的限制,合理的竞价策略直接影响到广告主的投资回报。出价偏高会导致广告主预算消耗过快,出价太低将无法获得广告曝光机会。当前主流策略研究主要集中在静态或持续反馈模型上,考虑到互联网环境的复杂性,本文在点击率预估模型的基础上,提出了一种基于概率反馈的动态竞价策略。该策略引入偏离率评估当前算法的有效性,此外,针对需要修正的状态,我们结合拍卖反馈信息给出了修正函数对其进行调整。最后,本文在真实数据集上对提出的模型分别进行实验,并与目前主流方法进行了详细的对比分析。实验结果表明,本文提出的点击率预估模型在Logloss、PR曲线均有突出的性能表现并且相对AUC值最优情况下提升了约5%。此外,通过分析各子集的特征权重可以证明该模型能够挖掘特征对不同群体的差异性影响。在竞价实验中,对比各模型下广告主的KPI和消耗可得,本文提出的竞价策略在广告主预算受限的情况下可以提高广告主的投资回报率,且平均提升在三倍左右;从预算消耗趋势上看,该策略与市场真实消耗情况误差最小,并与其保持相同的消耗趋势。