面向点击率预估的多模型融合方法研究

来源 :东华大学 | 被引量 : 0次 | 上传用户:hmlsuper
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的蓬勃发展在当今世界掀起了一波又一波的科技浪潮,社会生产力得到了快速发展,国家经济实力和人们的生活水平都得到了显著提升。近年来又是以移动互联网为主要推动力,推动着社会生产力不断向宽度和深度发展,其影响力之广,促使了各行各业不断追求转型升级,其影响力之深,渗透到了人们的日常生活,改变了人们的生活方式。在移动互联网这片沃土之下,大数据、人工智能、物联网等新兴技术的崛起,将人民生活水平提升到了更高的档次。便捷的支付方式和全新的消费体验刺激着人们的购买力,人民对美好生活的向往也对移动互联网技术提出了更高的需求。各个销售商需要对产品进行推广,就需要有性能优良的在线广告系统提供技术支持,将广告精准快速的推送给消费者,降低流量和广告成本的同时,提升了用户体验,对技术发展产生正向促进作用。精准快速的在线广告系统,需要在较短的时间内计算出广告排序,将用户最有可能点击的广告推送给用户,衡量点击可能性的指标,就是广告点击率。
  在传统的广告点击率预估系统中,会采用简单的逻辑回归模型,这种方法能够快速适应训练,工业界上也已经大规模部署。借助计算机硬件资源发展的红利,计算性能更高的机器得到学术界和工业界的普及,神经网络深度学习技术在图像和自然语言领域取得了不错的成绩,在个性化推荐系统和点击率预估系统之中也逐渐被应用。目前点击日志的数据集特征表现为数据维度大,有效数据高度稀疏,常见的处理方法会先对特征进行降维,用非线性方法提取特征组合,最后通过神经网络等高度抽象的非线性算法进行训练预估。本文的主要研究内容从以下三个方面进行:
  (1)探索传统的机器学习方法的优缺点和适用场景,比较现有的融合模型方法,尝试用独立简单的模型进行模型融合求解预测。本文先后比较了线性模型LR和非线性模型决策树以及因子分解机家族算法的优缺点,利用XGBoost进行特征提取,融合上述的几种模型,最后得到一种基于模型融合的点击率预估算法XG-FwFM,用于之后的实验对比。
  (2)探索比较神经网络和深度学习模型的有缺点和使适用场景,结合现有的深度学习融合模型,对现有的高阶融合模型进行改进。在基于之前的简单模型融合的经验之上,继续探求深度学习模型在点击率预估中的应用,同时兼顾融合模型的准确度和时间成本,进行特征工程的维度上进行改进,最后得到一种改进的深度学习模型融合算法XG-DFM,用于之后的实验对比。
  (3)基于两个大规模真实广告点击率数据集上进行数据清洗和特征工程,设计对比实验验证上述算法的优越性和实用性,实验结果表明模型融合理论在点击率预估场景下有促进作用。
其他文献
把具有不同关键等级的多个功能集成于同一嵌入式计算平台,以平衡系统中越来越复杂的功能与受限的计算资源、硬件尺寸、功耗以及成本等资源之间的矛盾,是当代嵌入式系统发展的重要趋势。这种系统被称为混合关键级系统。在混合关键级系统的调度中,一方面需要充分考虑功能的关键等级,通过保证具有较高关键等级的功能的及时完成,以满足系统的安全性和可靠性要求,另一方面需要通过对系统资源的有效配置,优化具有低关键等级的功能调
现实世界中充斥着大量的信息,而人类对外界信息的感知大部分都是依靠人类的视觉处理,这主要源自于人类视觉系统(HumanVisualSystem,简称HVS)具有强大的信息处理与感知能力。对于一个给定的场景,人类的注意力往往会关注在一些比较重要的目标上,从而自动地忽略掉大量无足轻重的信息。在场景中,能够吸引人类注意力的目标被称为显著性目标。面对图像数量每天以指数增长的现状,科学家模拟人类的视觉机制展开
根据文本内容为不明确词义的词汇赋予一个合适词义称为词义消歧(WSD)。WSD的目标是提高一些实际应用场景中的精确度,如信息提取、自动汇总或机器翻译等,它是通过一种蝙蝠算法(BA)的智能计算方法来实现的。BA来自元启发式方法的群体智能家族。由于BA是一种基于集群的算法,因此它在探索搜索空间的广泛领域中有着巨大的潜力,这也使得它在多样化过程中非常高效。为了进一步改进搜索算法,采用了一种名为爬山算法(H
学位
背包问题(Knapsack problem)是最著名的NP难问题之一,它的应用场景极为广泛,包括运输、物流、切割包装、电信、可靠性、广告、投资、预算分配和生产管理等许多工业领域。它既可以作为独立问题出现,也可以作为更复杂的编程模型的子问题出现。  同时,背包问题在信息加密、预算控制、工程选择、材料切割、货物装载、网络信息安全等方面具有重要的应用价值。从计算复杂性理论的角度来看,背包问题是一个经典的
学位
当长脉冲(亚皮秒、皮秒、纳秒甚至连续波)泵浦光纤反常色散区时,调制不稳定性会不断放大输入端低幅度噪声并导致随后通过高阶孤子衰变产生的基阶孤子振幅以及脉宽出现较大波动。这些具有不同能级以及脉冲宽度的基阶孤子在群速度方面的差异性将导致孤子间发生碰撞。孤子碰撞将导致具有较低峰值功率的基阶孤子将部分能量转移给具有较高峰值功率的基阶孤子从而使其形成光流氓波(RW)。光RW是一种具有超高强度极大红移并产生在超
访问超点是网络中在一段时间内与远大于平均值数量的对端有交互行为的主机。访问超点检测算法的目标就是找出流量中连接对端数大于阈值的所有主机。访问超点一般是服务器、代理、扫描器和被DDoS攻击的主机。访问超点检测对网络安全和网络管理有重要的意义,也是这个领域一个没有完全解决的热点问题。  现有访问超点检测算法存在如下缺陷:算法运行时间长,无法实时处理高速网络数据;不能在滑动时间窗口下运行,无法检测跨越时
学位
随着信息技术的进步,特别是人工智能技术的发展,人们在万维网上发布了包含大规模数据的知识图谱,为知识互联、为智能问答和语义搜索等诸多人工智能应用提供支撑。  知识图谱从逻辑上分成数据层和模式层,其中数据层主要描述现实世界的事实性知识,而模式层主要由公理组成,目的是管理和组织数据层知识。模式层知识一般也被称为本体知识。由于百科类网站的半结构化数据中缺少模式信息,导致公开的知识图谱中本体知识缺乏。本体的
学位
大数据蕴含着许多有价值的知识,想要获取这些知识,需要进行数据分析、数据挖掘等操作,函数查询是这些操作的基础。与一般查询不同,函数查询在查询表达式、查询结果等方面具有自己的特点,但是函数查询缺少类似于关系代数、关系演算等形式化的描述工具,这些问题阻碍了函数查询的理论研究。  为了对函数查询进行理论研究,针对查询结构和复杂度问题,本文给出了形式化定义和分析。目前,关系模型是大数据函数查询的主要数据模型
学位
语音情感识别(Speech Emotion Recognition,SER)或声学情感识别自语音识别、说话人识别和情感识别研究诞生以来,在过去的几十年里取得了重大进展。近年来,研究者从不同的角度进行语音情感相关的研究,目标是实现高效的现实世界类人的语音情感识别系统,以解决现实生活中新型的人机交互问题。然而,目前公开的情感语料库存在录制条件、语言以及说话人等方面的差异,且从同一分布中提取的训练和测试
近年来,为了快速灵活地部署网络服务,网络功能虚拟化(Network Function Virtualization,NFV)已经成为了一种很有前景的网络架构范例。通过转变网络功能的实现方式,NFV倡导将专有硬件设备替代为软件网络功能并运行在商用服务器中,从而简化网络服务的部署和管理,降低资本支出和运营支出。随着NFV的发展,网络功能服务链已被应用于电信运营商、数据中心和企业等网络中。  在NFV实