论文部分内容阅读
近几年来随着搜索引擎的快速发展与应用,基于搜索引擎的广告已成为最大的网络广告形式,它展现了巨大的发展前景和商业价值。点击率是评判搜索引擎广告效果优劣的重要标准和进行广告投放的主要依据。因此,对搜索引擎广告的点击率预估进行研究还是非常有必要和具有现实意义的。在现有的研究中,主要思想是基于用户的角度去模拟用户行为,但这并不能为广告主投放广告提供有效依据。此外现有的大部分预测算法采用的特征都是孤立性存在的,没有考虑数据特征之间的联系和依赖性对预测的影响。本文的研究目标是从广告主的角度出发,通过循环神经网络去模拟序列数据之间的依赖性和挖掘特征之间的内在关系,从而提高点击率预测的效果,为广告主投放广告提供有效依据。本文的主要研究内容如下:第一,对数据进行数据处分析理和特征处理。序列数据是体现数据之间前后依赖关系的表现形式,本文从广告主的角度对经过缺失处理的数据集进行历史点击率分析,发现广告后一段时间的点击在一定程度上依赖于前一段时间的点击研究,并以此构建了适合于循环神经网络算法训练的基于时间的广告序列数据;然后对数据进行特征提取,获得对模型有效的特征数据。为了解决one-hot对文本信息编码会产生巨大特征维度和编码特征间孤立存在的问题,提出用CBOW(Continuous Bag-of-Words)模型对文本特征进行编码处理。第二,点击率预测模型构建与实验分析。首先对logistic算法进行基于惩罚项的改进,且验证了Elastic Net-logistic模型有较好的降维效果,且预测效果有所提升;然后根据浅层模型不能模拟特征之间的联系和数据之间的依赖性的问题,提出基于GRU(Gated Recurrent Unit)神经网络的点击率预测模型,并通过实验验证了GRU预测模型相比于同是循环神经网络的LSTM(Long Short-Term Memory)和传统的BP(Back Propagation)以及Elastic Net-logistic预测模型有更好地预测效果;最后根据Elastic Net-logistic和GRU模型的各自的优势提出融合预测模型,进一步提高了点击率预测的效果。第三,设计与实现点击率预测平台。基于得到的点击率预测模型,设计与实现搜索引擎广告点击率预测平台,为广告主进行广告投放决策提供一个合适的平台。