论文部分内容阅读
随着互联网技术的飞速发展,海量数据背景下的网络营销方式越来越受青睐。在线广告作为新的广告形式应运而生,展现出了巨大的市场潜力和商业价值,搜索广告是规模最大,增长最快的在线广告形式,它根据用户搜索的内容投放相关的广告,如今已经成为互联网行业的主要收入来源之一。搜索广告背后最为关键的技术是广告点击率的预测,它不但关系到广告投放的排名,也影响着广告点击的收费。因此,如何有效的利用海量历史数据对搜索广告的点击率进行预测是一项非常有意义的工作。目前已有的工作大多基于浅层模型进行搜索广告的点击率预测,浅层模型在特征学习方面是直接使用统计学习方法计算得到的特征,特征中每一维的含义固定并且孤立,不能表达内部之间的关系。本文研究的目标是通过给定的信息预测搜索广告的点击率,通过使用深度学习模型,挖掘更多的特征之间的关系,从而能更有效的提高预测的结果。具体地,本文主要包含如下三方面的研究内容。第一、本文从搜索广告点击率预测的定义出发,分析了数据集的数据的分布和特点并对数据集进行了预处理,在此基础上,本文根据对搜索广告的认识和在实际应用中的特性,提取了六类不同的特征。其次,针对深度学习在搜索广告点击率预测应用中的训练耗时和内存限制,本文设计了一种基于GPU计算的分块实现方案。第二、本文首先使用了朴素贝叶斯模型、逻辑斯蒂回归模型和支持向量回归模型等主流方法对点击率进行预测,并分析了他们的不足。进而使用基于深度神经网络模型的搜索广告点击率预测的方法,我们使用dropout方法来降低在训练时过拟合造成的影响。实验结果表明,在特征相同的情况下,本文使用的深度神经网络模型方法能取得比主流方法更好的预测结果。第三、本文提出了面向搜索广告点击率预测的卷积神经网络模型,通过基于局部窗口概念的卷积操作和亚采样操作,完成了从局部到整体的特征学习。在KDD Cup 2012中Track 2数据集上的实验结果表明,本文所使用的基于卷积神经网络的搜索广告点击率预测的方法能有效的提高点击率预测的结果。