论文部分内容阅读
传统的广告投放活动往往采用广撒网的方式,盲目而不够精确。首位现代广告商约翰·华纳梅克(John Wanamaker)在100多年前向他的广告服务商抱怨:“我知道我的广告费有一半浪费了,但问题是我不知道浪费的是哪一半。”Internet互联网是有史以来发展最快的媒体,以影响力大、信息公开、传播速度快、交互性强等优势为人们所接受和喜爱。SNS是Social Network Site的缩写,也就是“社交网站”,根据六度分割理论:“通过不超过六个人,就能认识任何一个陌生人”[14]。每个人的社交圈都可以通过圈内朋友不断扩展,最后成为一个大型社交网络。伴随着Internet互联网的高速发展和SNS网站的兴起,基于互联网和SNS的广告业也成为新的营收获利领域,在互联网在线广告的实践与发展的过程中,产生了计算广告学,最终为互联网广告行业提供了科学和技术的基础。归功于互联网的普及和计算广告学的产生于发展,John Wanamaker抱怨的问题正在逐渐被全新的广告精确投放技术解决,广告商在广告投入上的浪费正变得越来越小,广告的价值也更容易衡量。人人网SNS广告依托人人网大量真实的注册用户,提出“人人广告,精确到人”的口号,通过分析每位用户的宝贵资料和浏览行为,作为实现精准定位目标用户的数据基础。通过对人人网线上广告系统的展示日志,点击日志等进行分析,发现存在用户连续点击或浏览同一广告,广告展示后立即点击,广告展示“超时”后点击,同一IP用户连续浏览或点击广告,广告展示用户、IP与实际广告点击用户、IP不一致等等多种非正常用户浏览行为,按广告平台现在的CPM与CPC广告计费方式,如果不采取相应的反作弊处理措施,广告主的投资回报比将会降低,利益将会受到损害,长期来看,会对人人网广告平台的发展产生消极影响。针对以上提出的广告投放盲目不够精确的问题,本文描述了计算广告学在人人网广告平台中的应用,对人人网在线广告系统广告推荐策略模块的广告匹配与选择算法及实现进行综述,分别从广告内容与广告投放上下文环境、语义情景、用户信息的匹配精度和用户点击反馈等方面进行描述;作者独立完成工作重点为:针对在线广告投放后产生的各种作弊行为,包括通过程序或脚本模拟用户的点击或广告展示及加入广告作弊团体后带来的非正当途径流量产生的广告点击或广告展示,提出可行的反作弊系统的设计,实现与改进方向,通过分析广告展示和点击日志,制定各种反作弊策略,实现过滤作弊点击的功能。广告策略模块使用C++语言开发,反作弊系统使用JAVA语言开发,使用MySQL作为后端存储数据库,利用Thrift作为各系统之间的远程调用框架,利用分布式计算平台Hadoop作为页面浏览日志,广告点击日志等海量数据的存储和计算工具,利用分布式数据库Hbase实现广告日志各项与HBase数据库列的映射,使用Hive实现利用Hive Query Language(类似SQL的语言)操作HDFS中文件的功能。