论文部分内容阅读
伴随着互联网日新月异的发展,信息呈现出剧烈的膨胀,人们获取信息的途径也更加多样、更加便捷,同时对于信息的时效性要求也越来越高。对于绝大部分的商用搜索引擎,像Google、Bing和Baidu等,通常在用户查询响应的结果页中提供结构化的Web结果,同时也插入基于流量的点击付费模式的文本广告。为了在页面上最佳位置展现最相关的广告,需要通过一些机器学习算法来动态估算给定上下文中一个广告被点击的可能性。上下文可能包括广告权重、用户偏好、历史查询、历史点击等信息。一个主搜索引擎可能每秒钟处理上千万次查询,每个页面都可能会包含多个广告。为了及时处理用户反馈,需要广告数据处理引擎保证低延迟、可扩展和高可靠性。本文所介绍的流式广告特征提取系统就是这样一种实时的广告数据处理引擎,通过从搜索引擎实时生成的检索记录的广告展现日志和点击日志中提取下游—广告点击率预估模型中各个机器学习算法所需要的广告特征数据,不断训练、更新广告预估被点击的概率,搜索引擎依据这些实时更新的广告预估点击率来决定下次检索时应该展现什么广告,以实现用户、广告主与百度三方的共赢。本流式广告特征提取系统基于百度自主开发的流式计算框架Task Manager,结合了HDFS、MapReduce等相关技术方法。在百度凤巢广告系统的应用中,通过本流式广告特征提取系统,广告展现日志和点击日志数据反馈到广告点击率预估模型的时间缩短至分钟级,系统每天处理的输入广告日志数据量达到数十T,生成的广告特征数据量达到数百G。本文首先介绍了流式广告特征提取系统的项目背景,然后将项目所涉及的相关技术背景和项目所使用的相关技术、框架做了简要的说明,接着详细描述了系统的需求分析、总体设计和模块设计,并对系统的几个关键模块的设计和实现进行了详尽的论述,最后对项目和论文的工作做了一个总结,并且对后续的下一阶段工作进行了展望。