论文部分内容阅读
随着广告行业的不断发展和壮大,广告收入也逐渐成为很多公司的主要经济来源。为了更好的优化广告投放效果从而获得更大的利益,弥补传统广告的一些不足,在线广告行业迅速兴起,采用计算的方式来提高广告的投放效率。目前,比较重要的两类在线广告分别是搜索广告(Sponsored Search Advertising)和实时竞价广告(Real-timeBidding),在大数据和计算广告学相交融的背景下,这两类广告也越来越成为人们的研究热点,而这一热点中最核心的一个问题就是广告点击率(Click-throughRate)的预测。因此,如何的利用从复杂的广告日志中更准确的预测广告的点击率也成为了一项极为重要的工作。本文以更准确的预测搜索广告和实时竞价广告的点击率为目标,在基本特征的基础上通过深度网络获取高层特征,然后结合基本特征与高层特征来准确地预测点击率。具体的,主要包含以下几个研究方面:首先,本文分析了广告日志字段中的含义以及一些数据集处理的相关工作,介绍了在点击率预测问题上常用的评价指标。在这基础之上,利用主题模型、相似度算法以及一些统计信息提取了用于计算点击率的一些基本特征,主要有:各类ID类型特征、历史点击率特征、相似度特征、兴趣属性特征和一些映射数值特征。并对特征的有效性进行了分析。其次,本文利用朴素贝叶斯模型和支持向量回归模型对广告点击率进行了预测,基于这两个模型的各自的特点,选取类别属性特征放入朴素贝叶斯模型中进行预测,选取历史信息和兴趣行为特征放入支持向量回归模型中进行预测。之后根据预测结果选取了更具表现力的特征作为后续研究的基础。在此基础之上考虑到单一模型的局限性以及在不同特征集上的表现结果,提出了采用模型融合的方法对广告点击率进行预测。最后,由于浅层的基本特征的表现力有限,不能很好的挖掘彼此之间的相互关系和潜在因素,所以在分析了这些特点之后,提出了一种基于深度网络的高层特征表示和点击率预测方法。针对前几节中提取出的有效的基本特征按照这些特征的不同表现特点采用不同结构的深度网络学习得到高层特征,之后把高层特征和一些基本特征进行组合,再采用逻辑斯蒂回归模型和支持向量回归模型进行点击率预测。在搜索广告数据集和实时竞价广告数据集的实验中表明,这种高层特征能很好的提高点击率预测的准确度,也很好的表明了点击率预测方法的有效性。