论文部分内容阅读
搜索广告是搜索引擎公司如百度,Google等的主要收入来源,当前的收费模式是按用户点击广告的次数收费,而广告位的个数是有限的,因此对于每个用户检索词,怎样在广告库中检索到用户最可能点击的广告返回给前端去展示是所有搜索引擎公司最关心的问题。CTR(Click Through Rate)即是衡量某广告被用户点击的可能性大小的指标。展示CTR最高的广告给用户是三赢的,对于用户,提高了搜索体验,他们乐于点击;对于商家,精准的广告投放策略将使广告都投放给潜在客户,有助于提高他们的营收;对于搜索引擎公司,提高用户点击广告的可能性,将使它们赚取更多广告提成。预估CTR是一项很复杂、涉及面很广的工作,本文就此问题提出了一种基于逻辑回归模型的预估方法。本文将预估CTR工作分成了两个主要方面:线下训练和线上计算。线下训练中使用Hadoop,从搜索引擎日志出发,经历数据清洗、提取特征、合并增量、排序降维、模型求解、模型验证等步骤,最终得出了一个特征到权重的映射文件,此即为我们的模型。在线上计算部分,经历扩展匹配、广告粗选、CTR计算等步骤,取出了CTR最高的10个广告返回给前端。逻辑回归模型属于有监督学习的一种,如何提取数据集中区分度高的特征是关键,本文针对CTR预估问题提出了3项一元、二元特征,经实验验证能有效提高搜索引擎收益。针对搜索广告这一特定场景,本文还引入了时间衰减因子用以区分较老的历史记录跟较新的历史记录对CTR预估的不同影响力,也取得了很好的成效。