基于机器学习的广告推荐技术研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:mini8912
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的高速发展,网络广告市场规模迅速扩大,展示广告成为了最受青睐的宣传手段。精准的广告推荐是互联网平台收益的保障,而准确的广告点击率预测是精准推荐的前提。根据广告平台的更新速率、实时性等要求,广告推荐技术可以分为线下和线上两类。线下广告推荐技术主要基于构建数学模型,通过模型挖掘用户、商品特征之间的复杂关联;线上广告推荐技术主要基于用户的实时反馈,通过收集反馈信息,即时改变推荐策略。本文对线下及线上两类广告推荐技术进行了研究,主要研究贡献及创新如下:(1)Movielens数据挖掘分析。基于张量分析法,对Movielens数据集中用户及电影的原始高维特征进行处理转换,生成适合在线推荐系统应用的低维特征数据集。基于T-SNE(Tdistributed Stochastic Neighbor Embedding)降维技术,对数据集进行可视化工作,发现用户反馈同商品特征之间呈现复杂关系,传统在线推荐算法如Lin UCB算法提出的广义线性模型无法拟合此类复杂的反馈交互情况。(2)针对线下广告推荐技术,提出了基于注意力机制和神经网络的广告点击率预测模型,称为CAN(CTR prediction algorithm based on Attention Machine and Deep Neural Net Works)。针对传统模型缺乏挖掘高阶特征交互的能力,该方法采用深度神经网络对原始特征进行训练,提高了模型对特征之间非线性关系的拟合能力。然后,为了缓解神经网络训练困难的问题,该方法提出通过注意力机制在神经网络层前构建低阶特征交叉层,相较原始特征,该方法为神经网络层提供更为丰富的特征交互信息。该方法经Movielens和Criteo数据集上仿真实验证明在Logloss、AUC(Area Under Curve)两项指标上优于FM(Factorization Machine)、PNN(Product-Based Neual Networks)等传统的方法。(3)针对线上广告推荐技术,提出了基于高斯过程的实时推荐算法。针对传统Lin UCB系列在线推荐算法假设商品特征和用户反馈之间为线性关系从而带来的普适性问题,提出了利用高斯过程刻画两者之间的关系。高斯过程为无模型的算法,将具体函数转换为分布表示,能够拟合各种复杂函数关系,从而能够解决具体函数假设在各类环境中的普适性问题。针对推荐系统常见的探索-利用问题,提出了基于上置信区间以及预期改进两种具体的推荐策略,分为称为GP-UCB(Gaussian Process-Upper Confidence Bound)、GP-EI(Gaussian ProcessExpected Improvement)。仿真阶段,提出了一种利用离线数据集模拟线上与用户实时交互的方法,并在该实验环境下,证明了两种推荐策略在累积遗憾值指标上优于UCB(Upper Confidence Bound)、Lin UCB等传统的方案。
其他文献
在知识经济时代,互联网的迅猛发展推动了数字资源的使用和传播,但由于数字产品本身易于传播的特性,数字产品很容易被泄密,给内容提供商造成损失。为了解决这个问题,数字指纹技术应运而生。通过将唯一的指纹序列秘密地嵌入到每一份分发出去的数字拷贝中,内容提供商可以追踪盗版者,保护数字产品的版权并且维护自身合法利益。目前对于数字指纹技术的研究已经取得了部分进展,但仍然存在一些亟待解决的问题,尤其是抗共谋指纹构造
现如今,大数据技术已经成为了互联网技术中至关重要的一部分,如何运用数据分析方法挖掘出数据背后的价值是大数据技术的核心问题。与此同时,数据的安全分发问题显得尤为重要,而关系型数据库作为一种重要的数据存储手段,它在分发时也面临着种种挑战。关系型数据库在分发时容易发生泄密,如何在关系型数据库发生泄密后对泄密者进行溯源追踪成为了研究重点。针对关系型数据库分发后可能出现的泄密问题,本文提出了两种分别适用于数
软件产品和我们日常的工作生活息息相关,一旦软件中存在缺陷,可能会带来严重后果。由于软件本身是一种逻辑实体,并且软件产品开发过程中往往涉及人员、技术、管理及成本等多方面,缺陷往往难以避免。目前应对缺陷的主流方法是软件测试技术,但随着软件和信息技术服务业的蓬勃发展,软件规模越来越大和软件复杂度越来越高,导致测试资源紧张和测试速度过慢。随着发现缺陷时间点的延长,修复缺陷的代价呈指数级增长,因而尽可能早地
如今的人类社会,多芯线缆的应用非常广泛。如桥梁斜拉索,高压电缆,光缆和数据电缆等。这些应用在各个领域各个角落的线缆,将整个人类社会连接起来,其重要性不言而喻。这些线缆若是出现损伤,又无法及时准确得检测出来,将会给社会与国民经济造成重大损失。以高压电缆为例。近年来电力系统中的高压多芯线缆因为退化、随机过载和腐蚀等原因造成的损伤,直接威胁电力系统的安全。在此背景下,对多芯线缆进行损伤检测具有重要意义。
目标检测与识别是计算机视觉领域的基础任务和热点研究问题。目前,大多数的方法基于图像数据充足的假设。但是当训练数据稀少时,即小样本情况下,模型的训练精度会因为过拟合和泛化能力差而急剧下降。为了解决上述问题,本课题分别从改进网络表示能力和损失函数两个角度进行研究。具体内容如下:现有的小样本目标检测方法主要针对已有的目标检测网络设计新的训练策略,忽略了网络表示能力的重要性。本课题从改进网络结构出发,提出
随着当今社会对于老年人群和残疾人群关注度的提升,如何满足上述群体的出行需求,成为亟待解决的社会热点问题。机器人轮椅是将移动机器人的相关技术应用于普通的电动轮椅,具有广阔的应用前景。作为机器人轮椅的关键技术之一,人机交互接口对用户与轮椅之间的和谐操作具有至关重要的影响。头姿交互控制可以通过直观的头部运动,帮助用户完成轮椅的人机交互,但容易因肌肉疲劳给用户带来二次损伤。脑-机接口是一项新兴的技术,其最
晶体管作为集成电路的最重要的组成部分之一,其性能的提升为微电子技术的发展提供了重要的技术基础。有机晶体管由于其中半导体分子之间通过弱范德华力进行键合,薄膜中的分子相对无序。较多的结构缺陷限制了载流子的传输,通常情况有机晶体管的载流子迁移率相对常规无机材料的器件更低,因此有机晶体管不适合用于对开关速度要求非常高的应用中。尽管如此,有机半导体有着独特的加工方法,大多数有机层通过配置有机前驱体液,在常温
在自旋电子学领域中,由于磁性隧道结有潜力成为下一代磁性随机存储器(MRAM)的基本元件,因此是近些年的研究热点。传统磁性隧道结的势垒层通常是由Al2O3、Mg O等氧化物制备的。但是,制备氧化物势垒层磁性隧道结的工艺复杂,成本较高。单晶二维材料简单易制备的特点可为制备低成本的磁性隧道结提供一个新途径,因而人们对单晶二维材料势垒层磁性隧道结进行了广泛的研究。研究发现,单晶二维材料势垒层磁性隧道结的温
多层复杂动态网络作为复杂网络学科的一个重要分支,在近几年得到了越来越广泛的关注,但相比单层复杂动态网络,关于多层复杂动态网络的研究成果仍相对较少。复杂网络的研究领域众多,包括状态估计、拓扑辨识、同步控制、故障检测、行为特性分析等等,其中状态估计是其余各种研究的前提,只有在网络节点的状态信息已知的条件下,才能进行拓扑辨识、同步控制等研究。在实际中,复杂网络的规模巨大,拓扑结果错综复杂,往往无法直接获
电力系统中单一故障引起的连锁故障是大停电事故频繁发生的主要原因,从单一元件的故障到引起连锁故障造成全网崩溃,往往只是一瞬间,调度人员根本来不及采取有效的控制措施来抑制故障的传播。因此,预先掌握电网的运行状态,辨识并定位电网中的脆弱环节,提前采取保护措施,是避免连锁故障、保障电力系统安全稳定运行有效手段。本文首先从电力网络的结构脆弱性和状态脆弱性两个层面出发,构建了包含网络凝聚度、网络效能变化率、节