一种基于逻辑回归模型的搜索广告点击率预估方法的研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:yuhong8109
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
搜索广告是搜索引擎公司如百度,Google等的主要收入来源,当前的收费模式是按用户点击广告的次数收费,而广告位的个数是有限的,因此对于每个用户检索词,怎样在广告库中检索到用户最可能点击的广告返回给前端去展示是所有搜索引擎公司最关心的问题。CTR(Click Through Rate)即是衡量某广告被用户点击的可能性大小的指标。展示CTR最高的广告给用户是三赢的,对于用户,提高了搜索体验,他们乐于点击;对于商家,精准的广告投放策略将使广告都投放给潜在客户,有助于提高他们的营收;对于搜索引擎公司,提高用户点击广告的可能性,将使它们赚取更多广告提成。预估CTR是一项很复杂、涉及面很广的工作,本文就此问题提出了一种基于逻辑回归模型的预估方法。本文将预估CTR工作分成了两个主要方面:线下训练和线上计算。线下训练中使用Hadoop,从搜索引擎日志出发,经历数据清洗、提取特征、合并增量、排序降维、模型求解、模型验证等步骤,最终得出了一个特征到权重的映射文件,此即为我们的模型。在线上计算部分,经历扩展匹配、广告粗选、CTR计算等步骤,取出了CTR最高的10个广告返回给前端。逻辑回归模型属于有监督学习的一种,如何提取数据集中区分度高的特征是关键,本文针对CTR预估问题提出了3项一元、二元特征,经实验验证能有效提高搜索引擎收益。针对搜索广告这一特定场景,本文还引入了时间衰减因子用以区分较老的历史记录跟较新的历史记录对CTR预估的不同影响力,也取得了很好的成效。
其他文献
<正>北京供电段自七九年筹建、八四年开通至今已有二八年的历史。其管段接触网正线采用全补偿弹性链型悬挂,站线采用半补偿简单链型悬挂,丰沙洞群地段采用简单弹性悬挂。丰沙
会议
近年来,电子商务有了突飞猛进的发展,越来越多的消费者选择网上购物。基于互联网的销售模式使得消费者突破了时间和空间的限制,可以享受更加便利、快捷、丰富的购物体验。但
<正>一、选题的现实意义1、目前小学数学课内外作业的现状:(1)长期以来,由于应试教育的影响,作业内容拘泥于课堂知识,拘泥于教材,往往以试卷中出现的形式作为课外作业的模式,
会议
考察了钙皂分散剂N-十二烷基-N,N-二甲基-N-(p-苄磺基)甜菜碱(DSBB)与透明皂基的配伍性,测定了复配体系的抗硬水度、钙离子稳定性、去污力、泡沫性能、润湿性能和水溶温度。
网络团购作为近年来新兴的一种电子商务模式,它的兴起不仅冲击了以币易货的传统消费模式,而是在消费者保护层面上对传统消费者保护法律制度的挑战。在消费者权益保护问题逐渐成
随着社会的快速发展,各行各业对电能的需求量都不断增加,用户不仅对电能的质量,同时对供电的可靠性也提出了更高的要求。目前在我国电力系统中,电网建设的不断加快,主网设备
目的 :以美国卫生费用地区公平性水平为参照对象,考察中国卫生费用地区公平性的现状、自身特点与改进方向,为中国卫生政策的制定、卫生资源的配置提供实证依据。方法 :对中国
除引言和结语外,本文由五部分组成。第一部分主要是对相关概念的区分和改革缘由的阐释。所谓刑事审判方式是指裁判者和其他刑事诉讼主体在刑事审判中所采用的步骤、行为和程序