论文部分内容阅读
随着互联网科学技术的飞速发展,投放互联网广告已在全球范围内形成趋势。搜索广告作为搜索引擎的主要收入来源,成为了近年来在线广告领域的研究热点,而预测搜索广告的点击率是这一研究方向的核心问题。用户在与搜索引擎交互的过程中生成了许多日志信息,本文从这些信息中提取特征建立特征体系。综合已有预测模型的优势特性,提出基于排名因子的融合技术,将其应用于点击率预测。针对浅层模型学习能力不足的问题提出基于深度神经网络的点击率模型。本文围绕点击率相关特征,建立高影响因子的特征体系,采用隐含狄利克雷分配(Latent dirichlet allocation,LDA)对用户查询词进行主题词提取,并定义相似性特征、统计特征提取方法。然后,分别建立了预测广告点击率的浅层学习模型在线贝叶斯概率模型和逻辑回归模型,根据两种模型在不同数据集中的差异表现分析模型优势和劣势。结合在线贝叶斯概率模型在处理缺失信息方面的优势和逻辑回归模型对特征的敏感性的特点,提出了基于广告排名的融合技术。最后,针对浅层模型学习能力的不足的问题,在人工神经网络和反向传播神经网络的基础之上选取sigmoid函数作为激活函数,提出多层次深度神经网络的构建方法,控制模型预测的误差范围,提高点击率预测的准确率。本文将腾讯搜搜广告日志作为数据集,对数据集进行了特点描述和统计分析。实验结果表明,本文基于LDA模型提取的用户特征对广告点击率预测有较大影响,文中提出的融合模型相比浅层单一模型预测效果有显著的提高,深度神经网络模型较逻辑回归模型具有更大的优势。