基于用户特征的搜索广告点击率预测研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:kenxu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网科学技术的飞速发展,投放互联网广告已在全球范围内形成趋势。搜索广告作为搜索引擎的主要收入来源,成为了近年来在线广告领域的研究热点,而预测搜索广告的点击率是这一研究方向的核心问题。用户在与搜索引擎交互的过程中生成了许多日志信息,本文从这些信息中提取特征建立特征体系。综合已有预测模型的优势特性,提出基于排名因子的融合技术,将其应用于点击率预测。针对浅层模型学习能力不足的问题提出基于深度神经网络的点击率模型。本文围绕点击率相关特征,建立高影响因子的特征体系,采用隐含狄利克雷分配(Latent dirichlet allocation,LDA)对用户查询词进行主题词提取,并定义相似性特征、统计特征提取方法。然后,分别建立了预测广告点击率的浅层学习模型在线贝叶斯概率模型和逻辑回归模型,根据两种模型在不同数据集中的差异表现分析模型优势和劣势。结合在线贝叶斯概率模型在处理缺失信息方面的优势和逻辑回归模型对特征的敏感性的特点,提出了基于广告排名的融合技术。最后,针对浅层模型学习能力的不足的问题,在人工神经网络和反向传播神经网络的基础之上选取sigmoid函数作为激活函数,提出多层次深度神经网络的构建方法,控制模型预测的误差范围,提高点击率预测的准确率。本文将腾讯搜搜广告日志作为数据集,对数据集进行了特点描述和统计分析。实验结果表明,本文基于LDA模型提取的用户特征对广告点击率预测有较大影响,文中提出的融合模型相比浅层单一模型预测效果有显著的提高,深度神经网络模型较逻辑回归模型具有更大的优势。
其他文献
视频监控中运动目标的检测与跟踪是计算机视觉和图像编码领域的重要研究项目之一,在军事、医学和科研等领域都有广泛的应用。运动目标检测与跟踪算法的设计直接影响跟踪效果
聚类是一门非常重要的技术。所谓聚类就是按照某种度量(相似性度量、不相似性度量或距离),根据一定的准则将个体集合分成若干类,使得同类个体之间的相似程度大于不同类个体之
由于Web海量的信息处于不断的变化中,搜索引擎己经很难再为用户提供一个高质量的、全面并且更新及时的信息搜索服务,其局限性在于它试图索引全部Web信息并服务于所有主题的查询
近几年来,随着信息技术的飞速发展,计算机网络在人类生活的各个领域已起着越来越重要的作用。由于Internet使用的网络协议在早期设计上对安全问题的忽视,导致网络安全事故屡
近年来,无线网络带宽的增长、终端处理能力的快速提高、编解码技术的日益成熟,使得移动流媒体技术有了长足的发展,移动流媒体业务得到了广泛开展,宽带接入和移动化的时代已经
随着技术的飞速进步和业务需求的与日俱增,存在于每个企业中的信息系统也在不断更新和增加,由于每个系统开发的年代不同、开发采用的工具、语言不同、系统运行的平台不同,这
目前,人们对服务质量、网络安全、网络管理等方面的需求日益迫切,传统互联网结构越来越高的复杂性给网络运营、管理、扩展、新业务的部署带来了很大问题。因此传统互联网结构
工作流技术是当前计算机应用领域的一个研究热点,利用工作流技术对企业进行业务过程的建模和分析不仅可以规范化企业的业务流程,发现业务流程中不合理和低效的环节,进而对企
学位
图像处理、信息检索以及生物信息学等大规模机器学习问题的不断涌现,对已有的特征选择算法和机器学习算法提出了严峻的挑战,迫切需要适应大规模数据集的准确性和运行效率等综